Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Este trabajo propone un marco de decodificación causal que, mediante intervenciones dirigidas durante la generación, reduce significativamente las alucinaciones de objetos en los Modelos Grandes de Lenguaje Multimodales manteniendo la calidad general de la respuesta.

Shiwei Tan, Hengyi Wang, Weiyi Qin, Qi Xu, Zhigang Hua, Hao Wang

Publicado 2026-02-26
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de Inteligencia Artificial que describen imágenes (como los que ves en redes sociales o aplicaciones de asistencia) son como niños muy inteligentes pero un poco soñadores.

Estos "niños" (los modelos de IA) son geniales para ver una foto y contarte una historia. Pero a veces, cuando están contando la historia, se les va la mano y empiezan a inventar cosas que no están en la foto.

Por ejemplo, si les muestras una foto de una pizza, pueden decir: "Aquí hay una pizza con queso, y también veo un tenedor y un cuchillo brillando a la derecha". Pero si miras la foto de verdad... ¡no hay ni tenedor ni cuchillo! A esto los científicos le llaman "alucinación". Es como si el modelo estuviera alucinando objetos que no existen.

El Problema: El "Efecto Dominó" de la Imaginación

En el pasado, los investigadores intentaban arreglar esto de dos formas:

  1. Dándoles más libros de texto: Enseñándoles millones de fotos y descripciones correctas (pero esto es caro y lento).
  2. Poniéndoles un "chupete": Diciéndoles "¡Cállate si inventas cosas!" o "¡Para de escribir si te equivocas!" (esto a veces funciona, pero a menudo hace que la IA deje de ser creativa o útil).

El problema es que estos modelos tienen un vicio: se confunden con lo que acaban de decir.
Si el modelo dice "pizza", su cerebro interno (sus estados ocultos) empieza a pensar: "Ah, pizza... las pizzas suelen tener tenedores". Entonces, aunque en la foto no haya tenedor, el modelo lo inventa porque su propia historia anterior lo empujó a pensar eso. Es como si el modelo se mirara al espejo y se convenciera de que tiene algo en la cara que en realidad no tiene.

La Solución: COAD (El Detective con Lupa)

Los autores de este paper proponen algo llamado COAD (Decodificación Consciente de Objetos Causal). Para explicarlo de forma sencilla, usaremos una analogía:

Imagina que el modelo de IA es un reportero que está escribiendo un artículo sobre una escena.

  • El problema actual: El reportero escribe una frase, y esa frase influye en lo que cree ver en la siguiente. Si escribe "hay una pizza", su mente se llena de ideas sobre restaurantes y empieza a "ver" cubiertos que no están.
  • La solución COAD: Introducen a un Detective Especialista (un detector de objetos) que trabaja antes de que el reportero empiece a escribir.

¿Cómo funciona el "Detective"?

  1. La Lupa (El Detector): Antes de que la IA empiece a hablar, el Detective mira la foto y hace una lista estricta de lo que realmente ve. "Veo: 1 pizza, 1 persona, 1 mesa. No veo: tenedor, cuchillo, gato".
  2. La Intervención (El Corte Causal): Aquí viene la magia. El modelo normal deja que lo que escribió antes influya en lo que ve después. COAD hace un "corte" en esa cadena. Le dice al modelo: "Oye, olvida lo que acabas de escribir. Mira solo la lista del Detective. Si el Detective no dijo 'tenedor', tú no puedes inventar un tenedor, aunque tu historia anterior lo sugiera".
  3. La Fusión: COAD combina la voz del modelo original (que es bueno escribiendo) con la voz del modelo que ha sido entrenado para escuchar al Detective. El resultado es una historia que suena natural, pero que se apega estrictamente a la realidad de la foto.

¿Por qué es mejor que lo anterior?

Piensa en esto como la diferencia entre corregir un error después de escribirlo y evitar que se escriba el error desde el principio.

  • Métodos antiguos: Es como si el modelo escribiera un cuento de terror con monstruos inventados, y luego un editor tuviera que tachar los monstruos al final. A veces queda un texto raro o cortado.
  • Método COAD: Es como tener un editor que está sentado al lado del escritor desde la primera palabra, diciéndole: "Espera, en la foto no hay monstruos, así que no los escribas". El resultado es un cuento fluido, interesante y, lo más importante, verdadero.

Los Resultados en la Vida Real

Los autores probaron su sistema en miles de fotos y preguntas.

  • Menos mentiras: La IA dejó de inventar objetos casi por completo (redujeron las "alucinaciones" drásticamente).
  • Más confianza: Cuando la IA dice "hay un perro", puedes estar seguro de que hay un perro.
  • Mantiene la calidad: La IA sigue escribiendo bien, con buena gramática y detalles, pero sin inventar cosas.

En Resumen

Este paper nos enseña que para que la Inteligencia Artificial sea confiable, no basta con que sea inteligente; necesita anclarse a la realidad.

COAD es como ponerle un sistema de navegación GPS a la IA mientras escribe. En lugar de dejarse llevar por sus propios pensamientos (que a veces la llevan a inventar cosas), el GPS (el detector de objetos) le dice constantemente: "Estás en la foto de la pizza, mantente en la carretera de la pizza, no te desvíes hacia el camino de los tenedores fantasma".

Gracias a esto, podemos tener asistentes de IA que no solo son creativos, sino que también son honestos con lo que ven.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →