Causal Decoding for Hallucination-Resistant Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de Inteligencia Artificial que describen imágenes (como los que ves en redes sociales o aplicaciones de asistencia) son como niños muy inteligentes pero un poco soñadores.

Estos "niños" (los modelos de IA) son geniales para ver una foto y contarte una historia. Pero a veces, cuando están contando la historia, se les va la mano y empiezan a inventar cosas que no están en la foto.

Por ejemplo, si les muestras una foto de una pizza, pueden decir: "Aquí hay una pizza con queso, y también veo un tenedor y un cuchillo brillando a la derecha". Pero si miras la foto de verdad... ¡no hay ni tenedor ni cuchillo! A esto los científicos le llaman "alucinación". Es como si el modelo estuviera alucinando objetos que no existen.

El Problema: El "Efecto Dominó" de la Imaginación

En el pasado, los investigadores intentaban arreglar esto de dos formas:

Dándoles más libros de texto: Enseñándoles millones de fotos y descripciones correctas (pero esto es caro y lento).
Poniéndoles un "chupete": Diciéndoles "¡Cállate si inventas cosas!" o "¡Para de escribir si te equivocas!" (esto a veces funciona, pero a menudo hace que la IA deje de ser creativa o útil).

El problema es que estos modelos tienen un vicio: se confunden con lo que acaban de decir.
Si el modelo dice "pizza", su cerebro interno (sus estados ocultos) empieza a pensar: "Ah, pizza... las pizzas suelen tener tenedores". Entonces, aunque en la foto no haya tenedor, el modelo lo inventa porque su propia historia anterior lo empujó a pensar eso. Es como si el modelo se mirara al espejo y se convenciera de que tiene algo en la cara que en realidad no tiene.

La Solución: COAD (El Detective con Lupa)

Los autores de este paper proponen algo llamado COAD (Decodificación Consciente de Objetos Causal). Para explicarlo de forma sencilla, usaremos una analogía:

Imagina que el modelo de IA es un reportero que está escribiendo un artículo sobre una escena.

El problema actual: El reportero escribe una frase, y esa frase influye en lo que cree ver en la siguiente. Si escribe "hay una pizza", su mente se llena de ideas sobre restaurantes y empieza a "ver" cubiertos que no están.
La solución COAD: Introducen a un Detective Especialista (un detector de objetos) que trabaja antes de que el reportero empiece a escribir.

¿Cómo funciona el "Detective"?

La Lupa (El Detector): Antes de que la IA empiece a hablar, el Detective mira la foto y hace una lista estricta de lo que realmente ve. "Veo: 1 pizza, 1 persona, 1 mesa. No veo: tenedor, cuchillo, gato".
La Intervención (El Corte Causal): Aquí viene la magia. El modelo normal deja que lo que escribió antes influya en lo que ve después. COAD hace un "corte" en esa cadena. Le dice al modelo: "Oye, olvida lo que acabas de escribir. Mira solo la lista del Detective. Si el Detective no dijo 'tenedor', tú no puedes inventar un tenedor, aunque tu historia anterior lo sugiera".
La Fusión: COAD combina la voz del modelo original (que es bueno escribiendo) con la voz del modelo que ha sido entrenado para escuchar al Detective. El resultado es una historia que suena natural, pero que se apega estrictamente a la realidad de la foto.

¿Por qué es mejor que lo anterior?

Piensa en esto como la diferencia entre corregir un error después de escribirlo y evitar que se escriba el error desde el principio.

Métodos antiguos: Es como si el modelo escribiera un cuento de terror con monstruos inventados, y luego un editor tuviera que tachar los monstruos al final. A veces queda un texto raro o cortado.
Método COAD: Es como tener un editor que está sentado al lado del escritor desde la primera palabra, diciéndole: "Espera, en la foto no hay monstruos, así que no los escribas". El resultado es un cuento fluido, interesante y, lo más importante, verdadero.

Los Resultados en la Vida Real

Los autores probaron su sistema en miles de fotos y preguntas.

Menos mentiras: La IA dejó de inventar objetos casi por completo (redujeron las "alucinaciones" drásticamente).
Más confianza: Cuando la IA dice "hay un perro", puedes estar seguro de que hay un perro.
Mantiene la calidad: La IA sigue escribiendo bien, con buena gramática y detalles, pero sin inventar cosas.

En Resumen

Este paper nos enseña que para que la Inteligencia Artificial sea confiable, no basta con que sea inteligente; necesita anclarse a la realidad.

COAD es como ponerle un sistema de navegación GPS a la IA mientras escribe. En lugar de dejarse llevar por sus propios pensamientos (que a veces la llevan a inventar cosas), el GPS (el detector de objetos) le dice constantemente: "Estás en la foto de la pizza, mantente en la carretera de la pizza, no te desvíes hacia el camino de los tenedores fantasma".

Gracias a esto, podemos tener asistentes de IA que no solo son creativos, sino que también son honestos con lo que ven.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Causal Decoding for Hallucination-Resistant Multimodal Large Language Models" (Decodificación Causal para Modelos de Lenguaje Multimodal Grandes Resistentes a Alucinaciones), publicado en Transactions on Machine Learning Research (febrero 2026).

1. El Problema: Alucinación de Objetos en MLLMs

Los Modelos de Lenguaje Grandes Multimodales (MLLMs), como LLaVA, han demostrado capacidades impresionantes en tareas de visión-idioma. Sin embargo, sufren de un problema crítico conocido como alucinación de objetos: el modelo genera descripciones o respuestas que mencionan objetos que no están presentes en la imagen de entrada.

Causa Raíz: Las alucinaciones a menudo surgen porque el modelo depende de correlaciones espurias entre el texto previamente generado y los estados ocultos internos, en lugar de basarse estrictamente en el contenido visual real. Por ejemplo, si el modelo genera la palabra "cuchillo", sus estados internos pueden inferir erróneamente la presencia de un "tenedor" debido a asociaciones estadísticas en los datos de entrenamiento, incluso si el tenedor no está en la imagen.
Limitaciones de Métodos Previos:
- Enfoques externos: Requieren bases de conocimiento externas o grandes cantidades de datos de entrenamiento adicionales, lo que es costoso y no siempre escalable.
- Enfoques internos (sin causalidad): Técnicas como penalizaciones heurísticas, corrección post-hoc o ajustes genéricos de decodificación no intervienen directamente en el mecanismo causal que desencadena la alucinación, por lo que los beneficios son limitados y a menudo degradan la calidad general del texto.

2. Metodología: COAD (Causal Object-Aware Decoding)

Los autores proponen COAD, un marco de decodificación que integra la inferencia causal directamente en el proceso de generación de tokens para mitigar las alucinaciones.

A. Fundamentos Teóricos

El método se basa en la teoría de grafos causales (Pearl, 2009). Se identifica una variable de confusión $z$ (creencias del modelo sobre qué objetos existen en la imagen) que conecta tanto con el texto previo $x$ como con el siguiente token $y$ .

En un MLLM estándar, la probabilidad condicional $P(y|x)$ está sesgada por $z$ , lo que lleva a alucinaciones.
COAD busca estimar la distribución interventional $P(y|do(x), z)$, eliminando la dependencia espuria del texto previo sobre las creencias de los objetos.

B. Arquitectura del Modelo

El sistema utiliza tres componentes principales:

Detector de Objetos: Un detector externo (ej. RTMDet) analiza la imagen $S$ y genera una distribución de probabilidad sobre la presencia de objetos. Esto actúa como un proxy para la "verdad fundamental" de los objetos visuales.
Modelo MLLM Ajustado (Fine-tuned, $M_f$ ): Se toma un MLLM preentrenado ( $M_p$ ) y se ajusta (fine-tuning) para que, además de la imagen y el texto, reciba como entrada un vector de creencias de objetos ( $z$ ) derivado del detector.
Modelo Oráculo Hipotético ( $M^*$ ): Se conceptualiza un modelo ideal que siempre genera la respuesta correcta basada en la imagen y los objetos reales.

C. Proceso de Inferencia y Fusión Causal

Durante la inferencia, COAD no usa simplemente el modelo ajustado, sino que combina las salidas de dos modelos mediante inferencia causal:

Doble Modelo: Se ejecutan tanto el modelo preentrenado ( $M_p$ ) como el modelo ajustado ( $M_f$ ) en cada paso de decodificación.
Estimación del Oráculo: Se asume que la salida de $M_f$ es una mezcla probabilística entre el modelo preentrenado ( $M_p$ ) y el modelo oráculo ideal ( $M^*$ ).
Fórmula de Decodificación: Mediante reglas de cálculo do y descomposición bayesiana, COAD deriva una fórmula para estimar la distribución del oráculo $P(y^*|S, do(x))$ utilizando las salidas observables de $M_p$ y $M_f$ :
$P(y^*|S, do(x)) \approx (1 + \alpha) \sum_z P(z|S) P(y_f|S, x, z) - \alpha P(y_p|S, x)$
Donde $\alpha$ es un hiperparámetro que controla la mezcla. Esto permite "restar" la influencia de las correlaciones espurias del modelo base y "potenciar" la señal basada en los objetos reales detectados.

3. Contribuciones Clave

Formulación Causal: Se presenta un nuevo marco que formula la generación de respuestas fiables como la estimación de predicciones de un oráculo desconocido, utilizando inferencia causal para reducir la alucinación de objetos.
Estrategia de Intervención Dirigida: Se introduce una técnica que expone y aprovecha la estructura visual (mediante un detector de objetos) para permitir que el modelo razone de manera más fiel sobre el contenido de la imagen, rompiendo la dependencia de texto previo alucinado.
Rendimiento SOTA sin Datos Externos: El método logra resultados de vanguardia en la reducción de alucinaciones sin depender de bases de conocimiento externas o grandes volúmenes de datos de entrenamiento adicionales, operando puramente en el mecanismo de decodificación.

4. Resultados Experimentales

El método se evaluó en varios benchmarks utilizando LLaVA-1.5-7B como modelo base y RTMDet como detector.

CHAIR (Evaluación de Alucinación en Descripciones):
- COAD logró el mejor rendimiento en todas las métricas, reduciendo significativamente la tasa de alucinación a nivel de oración (CHAIRS) y de instancia (CHAIRI).
- Resultados: CHAIRI de 3.4 (vs. 5.2 del siguiente mejor) y CHAIRS de 5.3 (vs. 11.1).
- Caso de estudio: Mientras LLaVA describía incorrectamente un "tenedor" y un "cuchillo" en una imagen de pizza, COAD suprimió estos objetos inexistentes basándose en el vector $z$ del detector.
MMHal-Bench (Evaluación de Preguntas y Respuestas):
- COAD obtuvo la puntuación promedio más alta (2.52) y la tasa de alucinación más baja (0.52), superando a métodos como DoLa, OPERA y VCD.
- Destacó especialmente en dimensiones de atributos, comparación y relaciones espaciales.
POPE (Evaluación de Sondeo de Objetos):
- En el subconjunto "Adversarial" (diseñado para inducir alucinaciones), COAD alcanzó la mayor precisión (79.8%) y puntuación F1 (81.2), demostrando una mayor robustez frente a prompts engañosos.
Eficiencia Computacional:
- Aunque COAD ejecuta dos modelos (preentrenado y ajustado), su rendimiento es competitivo. En una sola GPU, la velocidad es de ~10.5 tokens/segundo (aprox. la mitad que el modelo base), pero es significativamente más rápido que métodos de búsqueda de haz o refinamiento iterativo como OPERA (4.52 tokens/segundo). En configuraciones multi-GPU, la sobrecarga se puede mitigar mediante paralelización.

5. Significado y Conclusión

El artículo COAD representa un avance significativo en la fiabilidad de los MLLMs. Al tratar la alucinación no como un error de entrenamiento, sino como un problema de confusión causal durante la inferencia, el método ofrece una solución elegante y efectiva.

Impacto: Permite que los modelos generen descripciones y respuestas que son estrictamente fundamentadas en la evidencia visual, lo cual es crucial para aplicaciones de alto riesgo como el análisis médico de imágenes o la asistencia legal.
Futuro: Los autores sugieren extender este marco causal a otros tipos de alucinaciones (atributos, relaciones) y explorar detectores de vocabulario abierto para manejar un espacio de objetos más rico.

En resumen, COAD demuestra que la integración de la inferencia causal en el proceso de decodificación es una vía poderosa para crear modelos multimodales más honestos y fiables sin sacrificar la calidad general de la generación de texto.