Egocentric Bias in Vision-Language Models

El estudio introduce FlipSet, un nuevo benchmark que revela que la mayoría de los modelos de visión y lenguaje adolecen de un sesgo egocéntrico y carecen de la capacidad para integrar la conciencia social con operaciones espaciales, lo que les impide realizar correctamente la toma de perspectiva visual de nivel 2.

Maijunxian Wang, Yijiang Li, Bingyang Wang, Tianwei Zhao, Ran Ji, Qingying Gao, Emmy Liu, Hokin Deng, Dezhi Luo

Publicado 2026-02-19
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que estás jugando a un juego de "¿Qué ve el otro?".

En este artículo, los investigadores han creado un nuevo examen llamado FlipSet para poner a prueba a las "inteligencias artificiales visuales" (modelos que ven imágenes y hablan). El objetivo es sencillo pero profundo: ¿Puede la IA imaginar cómo ve el mundo alguien que está sentado frente a ella, con la cabeza girada 180 grados?

Aquí tienes la explicación de lo que descubrieron, usando analogías sencillas:

1. La Prueba: El Mono y la Tarjeta

Imagina una tarjeta en el suelo con la palabra "81" escrita. Tú (la cámara) la ves así. Pero hay un mono de peluche sentado justo enfrente, mirando la tarjeta desde el otro lado.

  • La pregunta: ¿Qué ve el mono?
  • La respuesta correcta: Como el mono está al revés, él ve "18" (la tarjeta girada).
  • La trampa: La IA tiene que girar mentalmente la imagen en su cabeza, no solo leer lo que tú ves.

2. El Problema: El "Ego" de la IA

Los investigadores probaron a 103 modelos de IA diferentes. El resultado fue sorprendente y un poco triste para la inteligencia artificial:

  • El 91% de las IAs fallaron.
  • Peor aún, la mayoría no intentó siquiera girar la tarjeta. Simplemente dijo lo que ella veía ("81").

La analogía: Es como si tú y un amigo estuvieran mirando un cartel en una pared. Si el cartel dice "STOP" y tu amigo está al otro lado de la calle, él ve "POTS" (al revés). Pero la IA actúa como un niño pequeño que cree que todo el mundo ve el mundo exactamente igual que él. A esto lo llaman sesgo egocéntrico: la IA es tan "egoísta" que asume que su punto de vista es el único que existe.

3. El Diagnóstico: ¿Le falta inteligencia o le falta conexión?

Para entender por qué fallaban, los científicos hicieron una prueba de "desmontaje" en 24 de estas IAs. Imagina que la habilidad de ver el mundo desde otro ángulo es como una receta de cocina que necesita dos ingredientes:

  1. Ingredient A (Teoría de la Mente): Saber que "mi amigo ve cosas diferentes a mí".
  2. Ingrediente B (Rotación Mental): La habilidad física de girar la imagen en la cabeza.

Los resultados de la prueba de desmontaje:

  • Ingrediente A (Saber que el mono ve distinto): ¡Excelente! La mayoría de las IAs acertaron el 90%. Saben que el mono está ahí y que ve algo diferente.
  • Ingrediente B (Girar la imagen): Regular. Acertaron un 26% (ligeramente mejor que adivinar al azar).
  • La Receta Completa (Juntar ambos): ¡Desastre! Cuando tuvieron que usar los dos ingredientes juntos para responder, su puntuación cayó al 10%.

La metáfora final:
Es como tener un coche con un motor muy potente (sabe que el mono ve distinto) y unas ruedas muy buenas (puede girar cosas), pero el conductor no sabe cómo conectar el motor con las ruedas. La IA tiene las piezas sueltas, pero no sabe cómo ensamblarlas para resolver el problema en el momento real.

4. ¿Por qué importa esto?

Los investigadores descubrieron que incluso cuando les pedían a las IAs que "pensaran paso a paso" (como si les dijeran: "piensa, gira, luego responde"), empeoraban. La IA seguía siendo "egoísta".

Esto nos dice algo importante sobre el futuro de la Inteligencia Artificial:

  • Las IAs actuales son muy buenas reconociendo patrones (como leer un texto o identificar un perro).
  • Pero les falta una comprensión espacial real. No construyen un "modelo mental" del mundo como lo hacemos los humanos; solo adivinan basándose en lo que ven en la pantalla.

En resumen:
Este estudio nos dice que, aunque las IAs parecen muy inteligentes, todavía son como niños pequeños que no han aprendido a salir de su propia perspectiva. Tienen las herramientas para entender que otros ven el mundo diferente, pero no saben cómo usar esas herramientas para "ponerse en los zapatos" (o en la cabeza) de otro. Para que las IAs sean verdaderamente sociales y útiles en el mundo real, necesitan aprender a girar su mente, no solo a mirar su pantalla.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →