Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente, pero a veces, cuando le muestras una foto, empieza a inventar cosas que no están ahí. Por ejemplo, si le muestras una foto de una mesa con manzanas, él podría decir: "¡Mira, también hay un elefante rosa y un cohete espacial!". A esto los expertos le llaman alucinación.

Este paper presenta una solución genial llamada CIPHER. No es un nuevo robot que hay que entrenar durante años; es más bien como un "filtro de realidad" que se le pone al amigo inteligente justo en el momento en que habla.

Aquí te explico cómo funciona con una analogía sencilla:

1. El Problema: El "Sueño" de la Máquina

Los modelos de Inteligencia Artificial que ven imágenes (como los que describen fotos) a veces se confunden. Mezclan lo que ven con lo que creen que deberían ver. Es como si soñaran despiertos.

2. La Idea de CIPHER: Crear "Imágenes Falsas" a Propósito

Para enseñarle a la máquina a no soñar, los creadores de CIPHER hicieron algo muy curioso en una fase previa (fuera de línea):

El Experimento: Tomaron miles de fotos reales y usaron una herramienta mágica (llamada difusión, que es como un pintor digital) para cambiarlas un poco.
La Trampa: Si la foto original tenía manzanas, usaron la IA para "pintar" un elefante rosa encima, pero manteniendo el resto de la foto igual.
La Pregunta: Le mostraron a la IA: "Aquí tienes la foto real con manzanas" y "Aquí tienes la foto falsa con el elefante".
El Descubrimiento: La IA respondió de forma diferente a cada una. Los creadores midieron esa diferencia y descubrieron un "patrón secreto" o una dirección de alucinación. Es como si encontraran la "ruta GPS" que toma la mente de la máquina cuando empieza a inventar cosas.

3. La Solución: El "Filtro de Realidad"

Una vez que tienen ese mapa de la "ruta de la mentira", llega el momento de usarlo.

En tiempo real: Cuando alguien le pide a la IA que describa una foto nueva, la IA empieza a pensar.
El Golpe de Realidad: Justo antes de que la IA diga la última palabra, CIPHER actúa como un guardia de tráfico. Mira lo que la IA está pensando y dice: "¡Eh! Eso que estás pensando se parece mucho a la 'ruta de la mentira' que encontramos antes. ¡Detente!".
El Resultado: La IA es empujada suavemente fuera de esa ruta de invención y se queda en la "ruta de la verdad".

¿Por qué es tan bueno este método?

Imagina que tienes que arreglar un coche.

Otros métodos: Te dicen que tienes que desarmar todo el motor, cambiar piezas y volver a aprender a conducir (entrenar el modelo de nuevo). Es caro y lento.
CIPHER: Es como ponerle un GPS inteligente al coche. No necesitas cambiar el motor ni aprender a conducir de nuevo. Solo le dices al coche: "Si intentas ir por esa calle falsa, te giro el volante suavemente para que vuelvas a la carretera real".

En resumen

CIPHER es un truco inteligente que:

Crea "falsedades visuales" para entender cómo y por qué la IA miente.
Usa esa información para crear un escudo que bloquea las mentes inventadas.
Funciona al instante, sin necesidad de volver a entrenar la IA, y hace que las descripciones sean mucho más fieles a la realidad, sin perder la capacidad de hablar bien.

Es como darle a la IA unas gafas especiales que le permiten ver solo lo que realmente está en la foto, ignorando sus propios sueños.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression" (Luchando contra las Alucinaciones con Contrafactuales: Perturbaciones Guiadas por Difusión para la Supresión de Alucinaciones en Modelos de Lenguaje y Visión Grandes), presentado por Dastmalchi et al.

1. El Problema: Alucinaciones Visuales en LVLMs

Los Modelos de Lenguaje y Visión Grandes (LVLMs), como LLaVA o MiniGPT-4, integran codificadores visuales con Grandes Modelos de Lenguaje (LLMs) para realizar tareas multimodales. Sin embargo, sufren frecuentemente de alucinaciones: generan descripciones de objetos, atributos o escenas que no están presentes en la imagen de entrada.

Aunque existen métodos para mitigar esto, la mayoría se centran en alucinaciones inducidas por el texto (problemas del LLM) o requieren reentrenamiento costoso y anotaciones masivas. Las alucinaciones inducidas por la visión (donde el modelo "ve" cosas que no existen debido a una mala anclaje visual) han sido menos exploradas, especialmente con métodos que no requieren entrenamiento (training-free).

2. Metodología: CIPHER

Los autores proponen CIPHER (Counterfactual Image Perturbations for Hallucination Extraction and Removal), un método de supresión de alucinaciones que opera en tiempo de inferencia sin modificar los pesos del modelo. Se basa en la premisa de que las alucinaciones visuales siguen direcciones estructuradas en el espacio de características del modelo.

El método consta de dos fases:

A. Fase Offline: Construcción del Dataset Contrafactual (OHC-25K)

El objetivo es identificar las direcciones en el espacio de características que corresponden a alucinaciones visuales.

Generación de Contrafactuales: Se toman pares imagen-texto reales (de MSCOCO). Se utiliza un LLM (GPT-3.5) para perturbar el texto original, añadiendo objetos que no existen en la imagen (ej. cambiar "manzana" por "uvas").
Edición con Difusión: Se utiliza un modelo de difusión (Stable Diffusion) para generar una imagen contrafactual ( $\tilde{I}$ ) que visualmente incorpore esos objetos falsos descritos en el texto perturbado, manteniendo la estructura global de la imagen original.
Extracción de Direcciones: Se pasan tanto la imagen original $(I, C)$ como la imagen contrafactual editada $(\tilde{I}, C)$ a través del LVLM congelado.
Cálculo del Subespacio de Alucinación: Se calcula la diferencia entre las representaciones ocultas ( $\delta = \tilde{h} - h$ ). Al apilar estas diferencias de miles de muestras y aplicar Descomposición en Valores Singulares (SVD), se identifica un subespacio de bajo rango que captura las direcciones dominantes de las alucinaciones visuales. Este conjunto de vectores forma el "banco de bases de alucinación".

B. Fase de Inferencia: Proyección Orthogonal

Durante la generación de texto en tiempo real:

Se toman los estados ocultos intermedios del modelo en capas seleccionadas (generalmente las capas superiores, 16-32).
Se proyectan estos estados sobre el complemento ortogonal del subespacio de alucinación identificado en la fase offline.
Matemáticamente, esto elimina los componentes del estado oculto que se alinean con la dirección de la alucinación, forzando al modelo a generar respuestas más fieles a la imagen real sin reentrenar ni añadir sobrecarga computacional significativa (una sola pasada).

3. Contribuciones Clave

CIPHER: Un método training-free que se enfoca específicamente en alucinaciones de origen visual, a diferencia de métodos previos que priorizan el texto.
OHC-25K: La creación de un dataset contrafactual de 25,000 muestras generado mediante difusión, diseñado para exponer las debilidades de anclaje visual de los LVLMs.
Identificación de Subespacio: Demostración de que las alucinaciones visuales ocupan un subespacio de bajo rango en las representaciones del modelo, lo cual es más fácil de detectar y eliminar que las alucinaciones puramente textuales.
Eficiencia: Logra supresión de alucinaciones con una sola pasada de inferencia, evitando el costo de múltiples pasadas de métodos basados en contraste de decodificación.

4. Resultados Experimentales

Los autores evaluaron CIPHER en múltiples modelos (LLaVA-1.5, MiniGPT-4, mPLUG-Owl2) y benchmarks estándar:

CHAIR (Hallucination in Image Captioning): CIPHER redujo significativamente las tasas de alucinación. En LLaVA-1.5, redujo el CHAIRS (porcentaje de oraciones con alucinaciones) de 20.40% a 13.05%, superando a métodos de última generación como Nullu y HALC.
OPOPE (Offline POPE): En la tarea de verificación de objetos, CIPHER obtuvo los puntajes más altos en precisión y F-score, demostrando que elimina objetos inexistentes sin perder objetos reales.
Calidad del Texto (BLEU y LLaVA-Bench): A diferencia de otros métodos que a veces degradan la fluidez, CIPHER mantuvo o mejoró los puntajes BLEU y la calidad de las respuestas evaluadas por GPT-4V en términos de precisión y detalle.
Eficiencia: El método mantiene un throughput (rendimiento) idéntico a la decodificación greedy estándar (0.70 items/s), mientras que métodos como OPERA o HALC son considerablemente más lentos.
Análisis de Ablación:
- Se demostró que las perturbaciones visuales (difusión) generan señales de alucinación más fuertes y separables linealmente que las perturbaciones solo textuales.
- El paso de tiempo de difusión óptimo para generar contrafactuales fue $0.5T$ (mitad de los pasos totales), equilibrando estructura visual y cambio semántico.

5. Significado e Impacto

Este trabajo es pionero al abordar explícitamente el origen visual de las alucinaciones en LVLMs mediante perturbaciones contrafactuales generadas por IA.

Paradigma de Intervención: Establece que es posible "limpiar" las representaciones internas de un modelo en tiempo de ejecución mediante proyección geométrica, sin necesidad de costosos ciclos de entrenamiento.
Robustez: El método demuestra ser robusto incluso ante imágenes con ruido visual, manteniendo su capacidad de supresión.
Aplicabilidad: Al ser un método ligero y sin entrenamiento, es fácilmente aplicable a cualquier LVLM existente, ofreciendo una solución práctica inmediata para mejorar la fiabilidad de los sistemas multimodales en entornos reales.

En resumen, CIPHER ofrece una solución elegante y eficiente para un problema crítico en la IA multimodal, utilizando la propia capacidad generativa de los modelos de difusión para "enseñar" al modelo de visión a no alucinar.

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

1. El Problema: El "Sueño" de la Máquina

2. La Idea de CIPHER: Crear "Imágenes Falsas" a Propósito

3. La Solución: El "Filtro de Realidad"

¿Por qué es tan bueno este método?

En resumen

1. El Problema: Alucinaciones Visuales en LVLMs

2. Metodología: CIPHER

A. Fase Offline: Construcción del Dataset Contrafactual (OHC-25K)

B. Fase de Inferencia: Proyección Orthogonal

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers