AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje y Visión Grandes (LVLM) son como un turista muy inteligente pero un poco soñador que acaba de llegar a un país nuevo.

Este turista tiene una gran ventaja: conoce muchísimas historias y datos de libros (su "lenguaje"). Pero tiene un defecto: a veces, cuando ve algo real, su cerebro prefiere lo que cree que debería estar ahí según sus libros, en lugar de lo que realmente ve con sus ojos.

Aquí te explico el problema y la solución del paper AFTER usando analogías sencillas:

1. El Problema: "La Alucinación del Turista"

Imagina que el turista ve una foto de un hombre en una estación de esquí.

Lo que ve: Un hombre con un casco, sentado en un banco, con una tabla de snowboard y un solo guante en la mano.
Lo que dice el turista (alucinación): "¡Mira! Hay un hombre con un casco, una tabla de snowboard y dos guantes (porque los guantes siempre van en pares) y lleva una mochila (porque es lo normal en esquí)".

El modelo comete tres tipos de errores por su "sesgo de lenguaje":

Categoría: Confunde un objeto por otro (dice "mochila" cuando es una tabla).
Atributo: Se inventa detalles (dice "dos guantes" cuando solo hay uno).
Relación: Cambia la acción (dice "lleva el casco" en lugar de "sostiene el casco").

El modelo ignora la foto real porque su "libro de reglas" le dice que eso es lo que debería pasar.

2. La Solución: "AFTER" (El Corrector de Realidad)

Los autores proponen una técnica llamada AFTER (que significa "Después", pero aquí es un acrónimo de Adaptive Factual-Guided Visual-Textual Editing).

Piensa en AFTER como un traductor y corrector en tiempo real que se sienta al lado del turista mientras describe la foto. En lugar de dejar que el turista alucine, AFTER le da un "empujoncito" mental para que mire de verdad.

AFTER tiene dos herramientas mágicas:

A. FAS: El "Guía de Hechos" (La Brújula)

Antes, otros métodos intentaban "borrar" partes de la foto para ver si el modelo se confundía. AFTER hace algo más inteligente: construye una descripción de la verdad.

La analogía: Imagina que el modelo ve la foto y piensa: "Veo un objeto rojo".
Lo que hace FAS: Toma los datos reales de la foto (que sabemos que son ciertos: "es un coche azul", "hay una tabla de surf", "hay una persona") y crea una historia de hechos perfecta.
El efecto: Le dice al modelo: "Oye, olvida lo que crees que es. Aquí tienes la descripción real: 'Hay un coche azul y una tabla'". Esto le da al modelo una brújula que apunta hacia la verdad, no hacia sus prejuicios.

B. QAO: El "Ajuste Personalizado" (El Sastre)

El problema de los métodos antiguos era que usaban la misma "brújula" para todas las preguntas.

Si preguntas "¿Qué hay en la foto?", la brújula sirve.
Pero si preguntas "¿Cuántos guantes hay?", la brújula general no es suficiente.

QAO es como un sastre que ajusta el traje a la medida.

Si la pregunta es específica (ej. "¿Cuántos guantes?"), QAO calcula un pequeño ajuste extra sobre la brújula general.
Le dice al modelo: "Para esta pregunta en concreto, necesitas mirar más a los guantes y menos a la mochila".
Esto hace que la corrección sea precisa y adaptativa para cada pregunta que te hagan.

3. ¿Cómo funciona "por dentro"? (Sin tecnicismos)

Imagina que el cerebro del modelo es una orquesta.

A veces, los instrumentos (las capas de la red neuronal) tocan una melodía falsa porque siguen la partitura vieja (el sesgo de lenguaje).
AFTER no cambia la partitura ni despiden a los músicos (no necesita reentrenar el modelo, lo cual es caro y lento).
En su lugar, un director de orquesta (el vector de edición) entra en medio de la canción y levanta la mano suavemente en los momentos exactos para que los instrumentos toquen la nota correcta (la verdad visual) en lugar de la nota falsa.

4. Los Resultados: ¿Funciona?

Los autores probaron esto en tres modelos diferentes y los resultados fueron increíbles:

Menos mentiras: Redujeron las alucinaciones en un 16.3% (¡casi un 17% menos de errores!).
Más rápido: No necesitan volver a estudiar ni reentrenar al modelo. Es como ponerle un filtro de gafas de sol: se hace al instante.
Más inteligente: El modelo no solo deja de mentir, sino que sigue siendo bueno describiendo cosas reales.

En resumen

AFTER es como darle a un turista soñador un mapa de la verdad y un guía local que le susurra al oído: "No, mira bien, es un guante, no dos". Así, el modelo deja de inventar cosas basándose en lo que cree que es normal, y empieza a describir lo que realmente ve.

Es una solución barata, rápida y muy efectiva para hacer que la Inteligencia Artificial sea más confiable y honesta al describir el mundo real.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: AFTER

1. El Problema: Alucinación de Objetos en Modelos de Lenguaje y Visión Grandes (LVLM)

Los Modelos de Lenguaje y Visión Grandes (LVLM) han avanzado significativamente en tareas multimodales, pero sufren de un problema crítico conocido como alucinación de objetos. Esto ocurre cuando el modelo genera respuestas que discrepan de los objetos visuales reales presentes en la imagen.

Causa Raíz: La principal causa identificada es el sesgo lingüístico (language bias). Los modelos tienden a priorizar su conocimiento textual interno (priors estadísticos del lenguaje) sobre las entradas visuales externas.
Tipos de Alucinación:
1. Categoría: Identificar incorrectamente un objeto (ej. ver una mochila como una tabla de snowboard debido a la asociación lingüística con el esquí).
2. Atributo: Errores en características como el color, forma o, comúnmente, la cantidad (ej. asumir que siempre hay un par de guantes).
3. Relación: Suponer relaciones incorrectas basadas en contextos frecuentes (ej. "un hombre con casco" en lugar de "un hombre sosteniendo un casco").
Limitaciones de Métodos Previos: Las técnicas existentes de edición de activaciones (como VTI e ICT) suelen degradar las semánticas visuales (mediante perturbaciones o ruido) para guiar el modelo. Sin embargo, ignoran la guía positiva que ofrecen las semánticas textuales factuales. Además, utilizan vectores de edición idénticos para todas las consultas, fallando en capturar las asociaciones visuales-textuales específicas de cada pregunta.

2. Metodología: AFTER (Adaptive Factual-guided Visual-Textual Editing foR hallucination mitigation)

El enfoque propuesto, AFTER, es un método de edición de activaciones en tiempo de inferencia que no requiere reentrenamiento del modelo. Se compone de dos módulos principales:

A. Dirección de Activación Aumentada con Hechos (Factual-Augmented Activation Steering - FAS)
El objetivo es establecer una dirección de edición general y positiva basada en hechos reales.

Construcción de Semánticas Confiadas: En lugar de usar imágenes perturbadas, AFTER transforma las anotaciones de "verdad fundamental" (ground-truth) de la imagen en descripciones textuales factuales. Estas se dividen en tres tipos de hechos:
- Categoría: Lista de objetos presentes.
- Atributo: Color, forma y conteo (derivados de estadísticas de píxeles y polígonos de segmentación).
- Relación: Posiciones espaciales entre objetos (calculadas mediante IoU y desplazamientos).
Generación de Pares de Muestra: Se crea un par de muestras "confiada vs. no confiada":
- Confiable: Descripción textual factual ( $t^+$ ) + Pregunta ( $q$ ).
- No confiable: Imagen original ( $x$ ) + Pregunta ( $q$ ).
Cálculo del Vector General: Se extraen las activaciones internas de ambos pares. La diferencia entre la activación textual factual ( $z^+$ ) y la visual original ( $z$ ) promediada sobre un conjunto de imágenes genera un vector de dirección general ( $\bar{d}$ ) que guía al modelo hacia la verdad factual.

B. Optimización de Desplazamiento Adaptativo a la Consulta (Query-Adaptive Offset Optimization - QAO)
Para abordar la diversidad de consultas y evitar el uso de un vector único para todo, se introduce un mecanismo adaptativo.

Estimador de Desplazamiento: Se entrena un estimador ligero (un MLP de una sola capa) que predice un desplazamiento específico para cada consulta ( $o_i$ ).
Lógica: El estimador analiza la superposición entre los objetos mencionados en la pregunta y los hechos de categoría generales. Calcula la diferencia necesaria entre el vector general y el vector óptimo específico para esa pregunta.
Edición Final: Durante la inferencia, la activación se edita sumando el vector general más el desplazamiento estimado por la consulta:
$h^{l+1} = h^l + \text{Concat}(z^{l,k} + \alpha \cdot [G(z^{l,k}) + \bar{d}]) \cdot W^l_o$
Donde $G$ es el estimador y $\alpha$ la intensidad de la edición.

3. Contribuciones Clave

Propuesta de AFTER: Un nuevo marco de edición de activaciones que guía adaptativamente las activaciones hacia semánticas textuales aumentadas con hechos.
FAS (Factual-Augmented Activation Steering): Introduce el uso de hechos textuales explícitos (categoría, atributo, relación) como guía positiva, en lugar de depender solo de la degradación visual.
QAO (Query-Adaptive Offset Optimization): Permite una edición granular y específica para cada consulta, mejorando la diversidad y precisión de la mitigación de alucinaciones.
Eficiencia y Generalización: El método opera en tiempo de inferencia con bajo costo computacional y demuestra alta generalización en diferentes modelos y dominios.

4. Resultados Experimentales

Los experimentos se realizaron en tres LVLMs populares: LLaVA-v1.5, InstructBLIP y Shikra, evaluados en los benchmarks POPE, MME y AMBER.

Rendimiento en Alucinación:
- En el benchmark AMBER (tarea generativa), AFTER logró una reducción de alucinaciones de hasta un 16.3% sobre la línea base en el modelo Shikra.
- En POPE (tarea discriminativa), superó a los métodos de edición de estado del arte (como ICT) con mejoras promedio de 4.1% en precisión y 2.6% en F1-score.
- En MME, mostró mejoras significativas en la subsección de alucinación de objetos, superando a todos los métodos SOTA.
Capacidades Fundamentales: A diferencia de otros métodos que a veces degradan la comprensión general, AFTER mejoró las capacidades de percepción visual y cognición general en casi todas las dimensiones de MME.
Generalización: Los vectores de edición aprendidos en COCO funcionaron bien en distribuciones fuera de muestra (GQA y AMBER), demostrando que el método mitiga el sesgo lingüístico de manera general y no solo memoriza un dataset.
Eficiencia:
- Mantiene la velocidad de inferencia más rápida entre los métodos de edición (29.7 tokens/segundo).
- No requiere reentrenamiento del modelo base ni fine-tuning del LVLM, solo el entrenamiento de un pequeño estimador de desplazamiento.

5. Significado e Impacto

El trabajo AFTER representa un avance significativo en la creación de IA confiable para aplicaciones multimodales.

Cambio de Paradigma: Pasa de "degradar la visión" para corregir al modelo, a "enriquecer el texto con hechos" para guiarlo positivamente hacia la realidad visual.
Aplicabilidad Práctica: Al ser un método de inferencia con bajo costo computacional y sin necesidad de reentrenamiento masivo, es viable para su despliegue en aplicaciones del mundo real donde la precisión es crítica (ej. asistencia médica, análisis de seguridad).
Limitaciones: El método depende de tener acceso a las activaciones internas de modelos de código abierto, lo que limita su uso en modelos cerrados. Además, para dominios altamente especializados (como informes médicos), requeriría datos específicos del dominio para generar los hechos textuales.

En conclusión, AFTER demuestra que la edición adaptativa de activaciones, guiada por hechos textuales precisos y adaptada a la consulta específica, es una estrategia superior para eliminar las alucinaciones de objetos en los LVLMs actuales.