Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

El artículo propone GACD, un método de inferencia basado en gradientes que mitiga las alucinaciones en modelos multimodales al estimar y suprimir sesgos textuales y visuales espurios sin necesidad de ajuste fino ni modelos auxiliares.

Shan Wang, Maying Shen, Nadine Chang, Chuong Nguyen, Hongdong Li, Jose M. Alvarez

Publicado 2026-03-03
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un asistente de IA muy inteligente que puede ver fotos y describir lo que hay en ellas. Este asistente es como un estudiante brillante que ha leído millones de libros y visto millones de imágenes. Sin embargo, tiene un defecto: a veces, cuando ve una foto, alucina.

¿Qué significa esto? Significa que el asistente describe cosas que no están en la foto, simplemente porque en su "memoria" (los datos con los que fue entrenado), esas cosas suelen aparecer juntas.

Por ejemplo:

  • Si ve una silla, su cerebro dice automáticamente: "¡Ah! Y seguro hay una mesa de comedor cerca", aunque en la foto solo haya una silla en medio de un campo vacío.
  • Si ve un tenedor, añade un cuchillo y una copa de vino, aunque no estén ahí.

El problema es que el asistente confía demasiado en lo que cree que debería estar (basado en sus libros) y no mira lo que realmente está en la foto.

La Solución: "GACD" (El Espejo de Autoconciencia)

Los autores de este paper proponen una solución llamada GACD. No necesitan volver a entrenar al asistente (lo cual sería como obligarlo a ir a la escuela de nuevo por años). En su vez, le dan una herramienta para reflexionar sobre sí mismo mientras habla.

Aquí te explico cómo funciona con una analogía sencilla:

1. El Problema: Dos Tipos de "Prejuicios"

El asistente tiene dos sesgos principales:

  • El sesgo del "Libro de Texto" (Texto-Visual): Escucha más a sus propias palabras anteriores y a la pregunta que le hiciste que a lo que ve en la foto. Es como un chef que sigue una receta a ciegas y pone ingredientes que no están en el plato real.
  • El sesgo de la "Compañía Frecuente" (Co-ocurrencia): Piensa que si ve un objeto, el otro tiene que estar ahí. Si ve "nubes", asume que hay "aviones". Si ve "silla", asume que hay "mesa".

2. La Solución: El "Detective de Gradientes"

La magia de GACD es que actúa como un detective interno que revisa cada palabra que el asistente está a punto de decir.

Imagina que el asistente está describiendo una foto y está a punto de decir la palabra "mesa". El detective hace lo siguiente:

  • Paso 1: Preguntar "¿Quién te empujó a decir esto?"
    El detective mira la "fuerza" (el gradiente) que tiene cada parte de la imagen y cada palabra anterior para empujar al asistente a decir "mesa".

    • Pregunta: ¿Fue la foto la que empujó a decir "mesa"? ¿O fue simplemente que antes dijimos "silla" y el asistente asumió la asociación?
  • Paso 2: El "Filtro de Realidad" (Supresión de alucinaciones)
    Si el detective ve que la palabra "mesa" está siendo empujada principalmente por la palabra "silla" (y no por la foto real), frena esa palabra. Es como si el asistente dijera: "Espera, en la foto no veo una mesa, solo veo una silla. No voy a inventar la mesa".

  • Paso 3: El "Empujón Visual" (Reequilibrio)
    A veces, el asistente ignora la foto por completo y solo habla. GACD le da un empujón extra a los detalles visuales. Es como si le dijeras al asistente: "¡Mira la foto! ¡Fíjate en los colores y las formas! ¡Eso es lo que importa ahora!". Esto asegura que la descripción se base en lo que realmente ve, no en lo que cree.

¿Por qué es genial esto?

  1. No necesita "reeducación": Funciona en modelos que ya existen. Es como darle un par de gafas nuevas al asistente para que vea mejor, en lugar de obligarlo a estudiar de nuevo.
  2. Es preciso: No borra todo lo que dice. Solo corrige las partes que son invenciones. Si la foto tiene un perro y un gato, el asistente sigue diciendo "perro y gato", pero deja de inventar un "tercer gato" que no está.
  3. Es un "espejo": El modelo se mira a sí mismo y dice: "¿Estoy alucinando? Sí. ¡Corrijo!".

En resumen

Imagina que el asistente de IA es un narrador de cuentos que a veces inventa personajes que no están en la habitación. GACD es como un director de cine que, en tiempo real, le susurra al narrador: "Oye, en la foto solo hay una silla. No inventes la mesa. Mira bien los colores. Quédate con lo que ves".

Gracias a esto, las descripciones son mucho más fieles a la realidad, evitando que la IA "alucine" objetos que nunca existieron en la imagen.