AdaIAT: Adaptively Increasing Attention to Generated Text to Alleviate Hallucinations in LVLM

El artículo presenta AdaIAT, un método que mitiga las alucinaciones en los Modelos Grandes de Lenguaje y Visión (LVLM) mediante el aumento adaptivo de la atención hacia el texto generado, logrando así reducir significativamente las alucinaciones sin comprometer la coherencia lingüística ni provocar descripciones repetitivas.

Li'an Zhong, Ziqiang He, Jibin Zheng, Jin Li, Z. Jane Wang, Xiangui Kang

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje y Visión Grandes (LVLM) son como un turista muy inteligente pero un poco distraído que viaja por una ciudad nueva (la imagen) y tiene que escribir un diario de viaje (el texto generado).

El problema es que a veces, este turista se pierde en sus propios pensamientos y empieza a inventar cosas que no están en la ciudad (alucinaciones), como decir que vio un elefante cuando solo había un gato.

Aquí te explico la solución que proponen en este papel, AdaIAT, usando analogías sencillas:

1. El Problema: "¡Mira la foto, no el mapa!"

Antes de este nuevo método, los expertos intentaban arreglar al turista diciéndole: "¡Fíjate mucho en la foto! ¡Ignora tus pensamientos anteriores!".

  • La analogía: Era como ponerle unas gafas de sol muy oscuras al turista para que solo viera la foto.
  • El resultado: ¡Funcionó para que no inventara elefantes! Pero hubo un efecto secundario terrible: el turista se olvidó de lo que acababa de escribir. Empezó a repetir la misma frase una y otra vez: "Veo una torre. La torre es alta. La torre es alta...". Se volvió un robot aburrido y repetitivo.

2. La Idea Brillante: "Escucha tu propia voz"

Los autores del papel (Li'an Zhong y su equipo) se dieron cuenta de algo curioso al observar cómo pensaba el turista:

  • Cuando el turista describía algo real (que sí estaba en la foto), prestaba mucha atención a lo que ya había escrito antes.
  • Cuando inventaba algo (alucinaba), ignoraba lo que ya había escrito y se quedaba mirando solo la foto de forma rígida.

La conclusión: El texto que el modelo ya ha generado contiene "pistas" visuales y contexto que le ayudan a ser preciso. Es como si el turista se dijera a sí mismo: "Espera, ya escribí que hay una moto, así que lo que voy a escribir ahora debe tener sentido con esa moto".

3. La Solución Simple: IAT (Aumentar la atención al texto)

En lugar de obligar al turista a mirar solo la foto, les dijeron: "Presta más atención a lo que acabas de escribir".

  • La analogía: Es como si el turista tuviera un amigo que le susurra al oído: "Oye, ya dijiste que había un edificio, así que asegúrate de que lo que digas ahora encaje con ese edificio".
  • Resultado: El turista deja de inventar cosas raras (alucinaciones) y, además, su historia fluye mejor sin repetir las mismas palabras.

4. La Solución Avanzada: AdaIAT (El "Director de Orquesta" Inteligente)

El método simple (IAT) funcionaba bien, pero los autores pensaron: "¿Y si le susurramos al oído todo el tiempo, incluso cuando no hace falta? Podríamos molestarlo y hacer que piense mal".

Así nació AdaIAT (Adaptive IAT). Imagina que en lugar de un susurro constante, tenemos un director de orquesta muy inteligente:

  • Detecta cuándo es necesario: Solo interviene si nota que el turista está empezando a divagar o a prestar poca atención a su propio texto. Si el turista está trabajando bien, el director no hace nada.
  • Ajusta el volumen: No todos los "músicos" (las partes del cerebro del modelo) necesitan el mismo susurro. Algunos necesitan un empujón fuerte, otros solo un recordatorio suave. AdaIAT ajusta la intensidad para cada uno individualmente.

¿Por qué es importante esto?

Imagina que quieres que un robot te cuente una historia sobre una foto de tu perro.

  • Antes: El robot te decía cosas falsas (que tu perro volaba) o te repetía "es un perro, es un perro, es un perro" hasta que te cansabas.
  • Con AdaIAT: El robot te cuenta una historia coherente, no inventa cosas que no están en la foto, y usa un vocabulario rico y variado, como si fuera un buen escritor.

En resumen:
Este papel nos enseña que para evitar que la Inteligencia Artificial alucine (invente cosas), no debemos obligarla a mirar solo la imagen. En su lugar, debemos animarla a escuchar y confiar en lo que ya ha dicho, ajustando esa ayuda de forma inteligente y solo cuando sea necesario. ¡Es como enseñarle a un estudiante a revisar sus propios apuntes antes de responder un examen!