LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks

Este trabajo presenta LRR-Bench, un nuevo benchmark sintético que demuestra que, a pesar del rendimiento humano casi perfecto, los modelos de visión y lenguaje actuales aún luchan significativamente para comprender relaciones espaciales absolutas y movimientos en 3D, revelando una brecha crítica en estas capacidades.

Fei Kong, Jinhao Duan, Kaidi Xu, Zhenhua Guo, Xiaofeng Zhu, Xiaoshuang Shi

Publicado 2026-02-24
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que hemos creado un "examen de conducir" para la inteligencia artificial, pero en lugar de manejar un coche, la IA tiene que entender el mundo que ve a través de una cámara.

Aquí tienes la explicación del paper LRR-Bench en español, usando analogías sencillas:

🧠 ¿De qué trata este papel?

Los autores se preguntaron: "¿Son realmente inteligentes las IAs visuales (como GPT-4 o las que ves en tu teléfono) cuando se trata de entender el espacio?"

Piensa en las IAs actuales como niños muy leídos pero que nunca han salido de casa. Pueden recitarte el nombre de todos los muebles de tu sala, pero si les preguntas "¿hacia dónde se mueve el gato si el sofá gira?", se confunden y adivinan al azar.

Los investigadores crearon un nuevo banco de pruebas llamado LRR-Bench (que significa: Izquierda, Derecha o Girar). Su objetivo era ver si estas IAs pueden entender:

  1. Dónde está algo (¿Está el gato a la izquierda o a la derecha?).
  2. Cómo se mueve o gira (¿El coche avanza hacia adelante o el mundo gira a su alrededor?).

🏗️ ¿Cómo hicieron el examen? (El "Videojuego" Perfecto)

Para que el examen fuera justo y no estuviera "contaminado" (es decir, para que la IA no hubiera memorizado las respuestas de internet), no usaron fotos reales. ¡Usaron un videojuego (Minecraft) y un generador de imágenes mágico!

  • La analogía: Imagina que eres un director de cine. En lugar de rodar en la calle (que es caro y caótico), construyes una ciudad perfecta en un videojuego. Puedes mover la cámara, girar los objetos y cambiar la luz exactamente como quieras. Así, los creadores del examen saben exactamente qué debería responder la IA, porque ellos controlaron el mundo.

El examen se dividió en dos grandes áreas:

  1. La "Posición Absoluta" (El mapa estático): "¿Está el libro en la esquina superior izquierda?". Es como buscar un tesoro en un mapa fijo.
  2. El "Espacio 3D" (El mundo en movimiento): Aquí es donde todo se complica.
    • Profundidad: ¿Qué objeto está más cerca?
    • Rotación: ¿La cámara giró a la izquierda o a la derecha?
    • Movimiento: ¿El objeto se movió o fue la cámara la que se desplazó?

📉 ¿Qué pasó en el examen? (El resultado es decepcionante)

Los investigadores pusieron a prueba a las 20 IAs más inteligentes del mundo (desde modelos pequeños hasta los gigantes de 72 mil millones de parámetros) y los compararon con humanos.

Los resultados fueron como un desastre en una carrera de obstáculos:

  • Los Humanos: Casi todos acertaron el 90-100% de las preguntas. Para nosotros, es obvio si algo se mueve o gira.
  • Las IAs (Los "Genios"):
    • En las preguntas fáciles (¿está el objeto a la izquierda?), algunas IAs fueron decentes.
    • Pero en las preguntas de movimiento y giro, ¡casi todas fallaron estrepitosamente! Muchas obtuvieron puntuaciones cercanas a cero.
    • La analogía: Es como si le mostraras a un niño un video donde un coche avanza hacia ti, y le preguntas "¿El coche se acercó o te alejaste tú del coche?". El niño (humano) lo sabe al instante. La IA (en este caso) te diría: "No estoy seguro, quizás el coche es un pastel".

🚫 Los mitos que se rompieron

El estudio también descubrió cosas curiosas que nos hacen dudar de cómo mejoramos a las IAs:

  1. "Pensar antes de hablar" no siempre ayuda: A veces, pedirle a la IA que explique su razonamiento (como un estudiante que escribe todos sus pasos) empeora la respuesta. En lugar de pensar mejor, la IA empieza a "alucinar" (inventar cosas) y se pierde más.
    • Analogía: Es como si un conductor nervioso empezara a hablar en voz alta sobre cada giro que va a hacer, y al final, por tanto hablar, se olvida de girar el volante y choca.
  2. Más grande no significa mejor: Hacer la IA más "gorda" (más parámetros) no garantiza que entienda mejor el espacio. A veces, las versiones más grandes fallan más que las pequeñas en tareas de movimiento.
  3. Entrenar con juegos 3D no es la solución mágica: Incluso las IAs que fueron entrenadas específicamente con datos de 3D (como coches o robots) no mejoraron mucho. Siguen siendo "cegos" al movimiento real.

💡 La conclusión final

El mensaje principal es: Las Iams actuales son excelentes "lectores de libros" pero pésimos "conductores".

Pueden describir una foto de un coche, pero no entienden la física del movimiento, la rotación o la profundidad de la misma manera que un humano. Para que las IAs puedan conducir coches autónomos de verdad o ayudar a robots a manipular objetos, primero tienen que aprender a entender que el mundo se mueve y gira, no solo que las cosas están "aquí" o "allá".

Hasta que no superen este "examen de conducir espacial", seguirán siendo muy propensos a cometer errores graves en el mundo real.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →