Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

El artículo presenta CIPHER, un método sin entrenamiento que suprime las alucinaciones visuales en modelos de lenguaje-vision grandes (LVLM) proyectando sus estados ocultos fuera de un subespacio de baja dimensión identificado mediante perturbaciones de imágenes contrafactuales generadas por difusión.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini

Publicado 2026-03-12
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente, pero a veces, cuando le muestras una foto, empieza a inventar cosas que no están ahí. Por ejemplo, si le muestras una foto de una mesa con manzanas, él podría decir: "¡Mira, también hay un elefante rosa y un cohete espacial!". A esto los expertos le llaman alucinación.

Este paper presenta una solución genial llamada CIPHER. No es un nuevo robot que hay que entrenar durante años; es más bien como un "filtro de realidad" que se le pone al amigo inteligente justo en el momento en que habla.

Aquí te explico cómo funciona con una analogía sencilla:

1. El Problema: El "Sueño" de la Máquina

Los modelos de Inteligencia Artificial que ven imágenes (como los que describen fotos) a veces se confunden. Mezclan lo que ven con lo que creen que deberían ver. Es como si soñaran despiertos.

2. La Idea de CIPHER: Crear "Imágenes Falsas" a Propósito

Para enseñarle a la máquina a no soñar, los creadores de CIPHER hicieron algo muy curioso en una fase previa (fuera de línea):

  • El Experimento: Tomaron miles de fotos reales y usaron una herramienta mágica (llamada difusión, que es como un pintor digital) para cambiarlas un poco.
  • La Trampa: Si la foto original tenía manzanas, usaron la IA para "pintar" un elefante rosa encima, pero manteniendo el resto de la foto igual.
  • La Pregunta: Le mostraron a la IA: "Aquí tienes la foto real con manzanas" y "Aquí tienes la foto falsa con el elefante".
  • El Descubrimiento: La IA respondió de forma diferente a cada una. Los creadores midieron esa diferencia y descubrieron un "patrón secreto" o una dirección de alucinación. Es como si encontraran la "ruta GPS" que toma la mente de la máquina cuando empieza a inventar cosas.

3. La Solución: El "Filtro de Realidad"

Una vez que tienen ese mapa de la "ruta de la mentira", llega el momento de usarlo.

  • En tiempo real: Cuando alguien le pide a la IA que describa una foto nueva, la IA empieza a pensar.
  • El Golpe de Realidad: Justo antes de que la IA diga la última palabra, CIPHER actúa como un guardia de tráfico. Mira lo que la IA está pensando y dice: "¡Eh! Eso que estás pensando se parece mucho a la 'ruta de la mentira' que encontramos antes. ¡Detente!".
  • El Resultado: La IA es empujada suavemente fuera de esa ruta de invención y se queda en la "ruta de la verdad".

¿Por qué es tan bueno este método?

Imagina que tienes que arreglar un coche.

  • Otros métodos: Te dicen que tienes que desarmar todo el motor, cambiar piezas y volver a aprender a conducir (entrenar el modelo de nuevo). Es caro y lento.
  • CIPHER: Es como ponerle un GPS inteligente al coche. No necesitas cambiar el motor ni aprender a conducir de nuevo. Solo le dices al coche: "Si intentas ir por esa calle falsa, te giro el volante suavemente para que vuelvas a la carretera real".

En resumen

CIPHER es un truco inteligente que:

  1. Crea "falsedades visuales" para entender cómo y por qué la IA miente.
  2. Usa esa información para crear un escudo que bloquea las mentes inventadas.
  3. Funciona al instante, sin necesidad de volver a entrenar la IA, y hace que las descripciones sean mucho más fieles a la realidad, sin perder la capacidad de hablar bien.

Es como darle a la IA unas gafas especiales que le permiten ver solo lo que realmente está en la foto, ignorando sus propios sueños.