Quantifying and extending the coverage of spatial categorization data sets

Este artículo demuestra que las etiquetas generadas por modelos de lenguaje grandes (LLM) se alinean bien con las humanas para la categorización espacial, utilizando esta capacidad para expandir el conjunto de datos TRPS con 42 nuevas escenas y lograr una cobertura superior que sienta las bases para escalar estos estudios a decenas de idiomas y cientos de escenas.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp

Publicado Wed, 11 Ma
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que el mundo es un inmenso rompecabezas gigante, y cada idioma tiene su propia forma de poner las piezas juntas. Algunos idiomas usan muchas piezas pequeñas para describir cómo se relacionan las cosas (como "arriba", "dentro", "al lado"), mientras que otros usan piezas más grandes o diferentes.

Los científicos quieren entender cómo funciona este rompecabezas en docenas de idiomas diferentes. Pero hay un problema: hacer esto manualmente es como intentar armar un rompecabezas de 10,000 piezas solo con las manos, sin una caja de referencia. Es lento, costoso y difícil de escalar.

Aquí es donde entra este estudio, que es como un nuevo mapa de navegación para explorar el universo de las relaciones espaciales.

1. El problema: El mapa incompleto

Antes de este estudio, los investigadores usaban un conjunto de 71 imágenes llamado TRPS (una serie de dibujos de relaciones espaciales). Imagina que este conjunto es como un menú de restaurante que solo tiene 71 platos. Es bueno, pero si quieres entender la cocina de todo el mundo, te faltan miles de platos.

Otros investigadores intentaron añadir más platos al menú (como el "menú Zhang" o el "menú LJSP"), pero seguían centrándose en los mismos tipos de platos básicos (principalmente cosas "encima" o "dentro" de otras). Les faltaba variedad.

2. La solución: Usar un "chef robot" (IA)

En lugar de pedirle a miles de personas humanas que describan miles de imágenes (lo cual tardaría años), los autores usaron una Inteligencia Artificial (IA) avanzada, como un chef robot muy inteligente que ha leído casi todos los libros del mundo.

¿Cómo funcionó?

  1. La prueba de fuego: Primero, le mostraron a la IA las 71 imágenes originales y le preguntaron: "¿Cómo describirías esto en español, chino, francés, etc?".
  2. La validación: Compararon las respuestas de la IA con las de personas reales. Resultó que la IA era sorprendentemente buena, casi tan precisa como un humano nativo.
  3. El descubrimiento: Como la IA era rápida, pudieron probar miles de combinaciones nuevas. En lugar de adivinar qué imágenes añadir, usaron a la IA para encontrar los "huecos" en el menú.

3. La analogía del "Cobertura del Territorio"

Imagina que el espacio de todas las posibles relaciones espaciales es un océano.

  • El menú antiguo (TRPS) solo tenía barcos en una pequeña bahía.
  • Los intentos anteriores añadieron algunos barcos más, pero seguían cerca de la costa.
  • Los autores usaron a la IA para enviar barcos a zonas del océano que nadie había explorado.

La IA les dijo: "Oye, en inglés y chino hay palabras para 'entre', 'fuera', 'al este' o 'debajo' que no están en el menú original. ¡Vamos a crear imágenes para esas palabras!".

Así crearon un nuevo conjunto de 42 imágenes (llamado LCXRK) que llenaron esos huecos.

4. El resultado: Un mapa mucho más completo

Al comparar los mapas, descubrieron que su nuevo conjunto de imágenes (LCXRK) cubría el "océano" de posibilidades mucho mejor que los intentos anteriores.

  • Antes: Tenías un mapa que te mostraba solo la orilla.
  • Ahora: Tienes un mapa que te muestra la costa, las islas lejanas y las profundidades.

Además, usaron la IA para decidir qué idiomas estudiar a continuación. Imagina que ya tienes datos de 7 idiomas (como tener 7 brújulas). La IA analizó 23 idiomas y dijo: "Si quieres entender mejor el mapa, no añadas el chino (porque es muy parecido al que ya tienes), añade el portugués o el rumano, porque sus brújulas apuntan en direcciones muy diferentes".

En resumen

Este estudio es como usar un satélite inteligente para explorar un continente desconocido.

  • Sin el satélite: Tendrías que caminar a pie por cada rincón, tardarías siglos y te perderías.
  • Con el satélite (IA): Puedes ver de un vistazo dónde están los valles y las montañas que faltan en tu mapa, y luego enviar a los exploradores humanos solo a esos lugares específicos para confirmar lo que ves.

La conclusión: La Inteligencia Artificial no reemplaza a los humanos, pero actúa como un brújula superpoderosa que nos ayuda a decidir hacia dónde mirar, permitiéndonos crear mapas lingüísticos mucho más grandes, completos y diversos en un tiempo récord.