La geolocalización de imágenes a escala planetaria, el proceso de identificar la ubicación geográfica de una imagen, representa un desafío importante en la visión por computadora debido a la inmensa diversidad y complejidad de las imágenes globales. Los métodos tradicionales, que se centran principalmente en imágenes emblemáticas, han tenido dificultades para generalizarse a lugares desconocidos.
El juego «Geoguessr», que ha acumulado 65 millones de jugadores, destaca este desafío asignando a los jugadores la tarea de identificar la ubicación de una imagen de Street View desde cualquier parte del mundo. El trabajo de investigación titulado «PALOMA: PREDICCIÓN DE GEOLOCALIZACIONES DE IMAGEN» detalla cómo abordar este desafío. Investigadores de la Universidad de Standord han desarrollado PIGEON y PIGEOTTO, dos modelos innovadores que marcan un avance significativo en la tecnología de geolocalización de imágenes.
PIGEON (Predicción de geolocalizaciones de imágenes) es un modelo entrenado con datos de Street View a escala planetaria, que introduce panoramas de cuatro imágenes para predecir ubicaciones geográficas. Sorprendentemente, PIGEON puede realizar más del 40% de sus predicciones dentro de un radio de 25 kilómetros de la ubicación correcta a nivel mundial, un logro notable en este campo. Este modelo ha demostrado su destreza al competir contra los mejores jugadores humanos en Geoguessr, ubicándose en el 0,01% superior y superándolos constantemente.
Por el contrario, PIGEOTTO se basa en un conjunto de datos más diverso de más de 4 millones de fotografías de Flickr y Wikipedia, sin depender de los datos de Street View. Este modelo toma una única entrada de imagen y ha logrado resultados de última generación en varios puntos de referencia de geolocalización de imágenes, lo que reduce significativamente los errores de distancia media y demuestra solidez ante los cambios de ubicación y distribución de imágenes.
La columna vertebral técnica de estos sistemas implica metodologías sofisticadas como la creación de geoceldas semánticas, preentrenamiento contrastivo multitarea, una función de pérdida novedosa y el refinamiento de conjeturas posteriores. Estos métodos contribuyen a minimizar los errores de distancia y mejorar la precisión de las predicciones de geolocalización.
El proceso de formación de estos modelos es complejo. PIGEON se entrena con un conjunto de datos diseñado específicamente para él, utilizando 100.000 ubicaciones muestreadas aleatoriamente de Geoguessr, mientras que el conjunto de datos de entrenamiento de PIGEOTTO es mucho más grande y variado. La evaluación de estos modelos emplea un sistema métrico que se centra en el error de distancia mediana y varias precisiones de distancia basadas en kilómetros, desde el nivel de la calle hasta el nivel del continente.
Si bien los avances que aportan estos modelos son significativos, también plantean importantes consideraciones éticas. La precisión y las capacidades de dichas tecnologías pueden tener tanto aplicaciones beneficiosas como potencial de uso indebido. Esta dualidad requiere un cuidadoso equilibrio en el desarrollo y despliegue de tecnologías de geolocalización de imágenes.
En conclusión, PIGEON y PIGEOTTO representan un gran salto en la tecnología de geolocalización de imágenes, logrando resultados de última generación y al mismo tiempo siendo adaptables a los cambios de distribución. Su desarrollo subraya la importancia de diversas innovaciones tecnológicas y apunta al futuro potencial de que las tecnologías de geolocalización de imágenes sean verdaderamente a escala planetaria o se centren en distribuciones estrechamente definidas.
Fuente de la imagen: Shutterstock