IRIS: Intent Resolution via Inference-time Saccades for Open-Ended VQA in Large Vision-Language Models

El artículo presenta IRIS, un enfoque sin entrenamiento que utiliza datos de seguimiento ocular en tiempo real para resolver ambigüedades en preguntas abiertas sobre imágenes, logrando duplicar la precisión de los modelos de visión y lenguaje grandes al identificar que las fijaciones cercanas al inicio de la pregunta son las más informativas.

Parsa Madinei, Srijita Karmakar, Russell Cohen Hoffing, Felix Gervitz, Miguel P. Eckstein

Publicado 2026-02-19
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que tienes un amigo muy inteligente, pero un poco despistado, que es capaz de ver cualquier foto y responder preguntas sobre ella. Sin embargo, tiene un problema: a veces, cuando le preguntas algo como "¿De qué color es eso?", no sabe a qué "eso" te refieres si en la foto hay tres cosas diferentes.

Este es el problema que resuelve el nuevo sistema llamado IRIS (que significa "Resolución de Intención mediante Sacadas durante la Inferencia"). Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: El "Dedo Mágico" que no existe

Imagina que le muestras a tu amigo una foto de una mesa con una manzana roja, una pera verde y un plátano amarillo.

  • Tú: "¿De qué color es esa fruta?"
  • Tu amigo (el modelo de IA): Se queda confundido. "¿Cuál? ¿La roja? ¿La verde? ¿La amarilla?".
  • El resultado: Como no sabe a cuál te refieres, adivina mal o te da una respuesta genérica.

En el mundo de la Inteligencia Artificial, esto se llama ambigüedad de referencia. Los modelos actuales son muy listos, pero no tienen "ojos" para saber a qué estás mirando tú cuando hablas.

2. La Solución: IRIS, el "Lector de Mentes" visual

IRIS es como un superpoder que le da a la IA la capacidad de ver hacia dónde miran tus ojos en el momento exacto en que haces la pregunta.

  • La analogía del "Dedo Invisible": Cuando tú miras la manzana roja y dices "¿De qué color es esa?", tus ojos se quedan fijos en la manzana unos milisegundos antes o mientras hablas. IRIS detecta ese "fijado" (como un pequeño destello o una cruz blanca en la pantalla) y se lo muestra a la IA.
  • El efecto: La IA ve la foto, escucha tu pregunta y, además, ve la "flechita" invisible que tú mismo dibujaste con tu mirada. ¡Y ahora sabe perfectamente que te refieres a la manzana roja!

3. ¿Cómo funciona en la vida real? (El experimento)

Los investigadores hicieron un juego con 500 fotos y 10 personas:

  1. Mirada: La persona se sentó frente a una pantalla con gafas especiales que rastreaban sus ojos (como las que usan los videojuegos de realidad virtual).
  2. Pregunta: La persona miraba la foto y hacía una pregunta en voz alta.
  3. El Truco: La IA no solo escuchaba la pregunta, sino que recibía un "mapa de calor" de dónde había mirado la persona justo cuando hablaba.
  4. Resultado:
    • Cuando la pregunta era confusa (había varias cosas similares), la IA acertó más del doble de veces (pasó de acertar el 35% al 77%).
    • Cuando la pregunta era clara (solo había una cosa), la IA seguía funcionando igual de bien.

4. El Secreto: El momento justo

Lo más interesante del estudio es que descubrieron cuándo mirar es lo más importante.

  • No sirve mirar la foto durante 10 minutos antes de hablar.
  • Lo que importa es justo cuando abres la boca para hablar.
  • Analogía: Es como si estuvieras en una fiesta y le preguntas a alguien "¿Quién es ese?". Si miras a la persona mientras hablas, tu amigo entiende a quién te refieres. Si miras al techo o a la ventana mientras hablas, tu amigo no tiene ni idea. IRIS sabe que la mirada debe coincidir con el momento de la voz.

5. ¿Por qué es importante esto?

Hasta ahora, para que la IA entendiera mejor, había que "entrenarla" de nuevo (como ir a la escuela de nuevo), lo cual es lento y costoso.

  • IRIS es "gratis" y al instante: No necesita reentrenar a la IA. Solo le da un "extra" de información en el momento en que la usas.
  • Funciona con cualquier IA: Funciona con los modelos más grandes y modernos, sin importar cómo estén construidos.
  • El futuro: Imagina gafas de realidad aumentada (como las de Star Trek o Iron Man) en el futuro. Si miras un objeto y le preguntas "¿Qué es esto?", la IA sabrá exactamente a qué te refieres sin que tengas que señalar con el dedo o decir "la roja".

En resumen

IRIS es como darle a la Inteligencia Artificial un "segundo par de ojos" que son los tuyos. Al ver dónde miras justo cuando hablas, la IA deja de adivinar y empieza a entender realmente lo que quieres decir, resolviendo la confusión de forma natural y rápida. ¡Es como si la IA pudiera leer tu mente a través de tu mirada!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →