AFTER: Mitigating the Object Hallucination of LVLM via Adaptive Factual-Guided Activation Editing

El artículo presenta AFTER, un método que mitiga las alucinaciones de objetos en los modelos de lenguaje y visión grandes mediante la edición adaptativa de activaciones guiada por hechos, combinando la dirección de activación aumentada con hechos y la optimización de desplazamiento adaptativa a la consulta para corregir los sesgos lingüísticos y mejorar la precisión factual.

Tianbo Wang, Yuqing Ma, Kewei Liao, Zhange Zhang, Simin Li, Jinyang Guo, Xianglong Liu

Publicado 2026-03-12
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje y Visión Grandes (LVLM) son como un turista muy inteligente pero un poco soñador que acaba de llegar a un país nuevo.

Este turista tiene una gran ventaja: conoce muchísimas historias y datos de libros (su "lenguaje"). Pero tiene un defecto: a veces, cuando ve algo real, su cerebro prefiere lo que cree que debería estar ahí según sus libros, en lugar de lo que realmente ve con sus ojos.

Aquí te explico el problema y la solución del paper AFTER usando analogías sencillas:

1. El Problema: "La Alucinación del Turista"

Imagina que el turista ve una foto de un hombre en una estación de esquí.

  • Lo que ve: Un hombre con un casco, sentado en un banco, con una tabla de snowboard y un solo guante en la mano.
  • Lo que dice el turista (alucinación): "¡Mira! Hay un hombre con un casco, una tabla de snowboard y dos guantes (porque los guantes siempre van en pares) y lleva una mochila (porque es lo normal en esquí)".

El modelo comete tres tipos de errores por su "sesgo de lenguaje":

  1. Categoría: Confunde un objeto por otro (dice "mochila" cuando es una tabla).
  2. Atributo: Se inventa detalles (dice "dos guantes" cuando solo hay uno).
  3. Relación: Cambia la acción (dice "lleva el casco" en lugar de "sostiene el casco").

El modelo ignora la foto real porque su "libro de reglas" le dice que eso es lo que debería pasar.

2. La Solución: "AFTER" (El Corrector de Realidad)

Los autores proponen una técnica llamada AFTER (que significa "Después", pero aquí es un acrónimo de Adaptive Factual-Guided Visual-Textual Editing).

Piensa en AFTER como un traductor y corrector en tiempo real que se sienta al lado del turista mientras describe la foto. En lugar de dejar que el turista alucine, AFTER le da un "empujoncito" mental para que mire de verdad.

AFTER tiene dos herramientas mágicas:

A. FAS: El "Guía de Hechos" (La Brújula)

Antes, otros métodos intentaban "borrar" partes de la foto para ver si el modelo se confundía. AFTER hace algo más inteligente: construye una descripción de la verdad.

  • La analogía: Imagina que el modelo ve la foto y piensa: "Veo un objeto rojo".
  • Lo que hace FAS: Toma los datos reales de la foto (que sabemos que son ciertos: "es un coche azul", "hay una tabla de surf", "hay una persona") y crea una historia de hechos perfecta.
  • El efecto: Le dice al modelo: "Oye, olvida lo que crees que es. Aquí tienes la descripción real: 'Hay un coche azul y una tabla'". Esto le da al modelo una brújula que apunta hacia la verdad, no hacia sus prejuicios.

B. QAO: El "Ajuste Personalizado" (El Sastre)

El problema de los métodos antiguos era que usaban la misma "brújula" para todas las preguntas.

  • Si preguntas "¿Qué hay en la foto?", la brújula sirve.
  • Pero si preguntas "¿Cuántos guantes hay?", la brújula general no es suficiente.

QAO es como un sastre que ajusta el traje a la medida.

  • Si la pregunta es específica (ej. "¿Cuántos guantes?"), QAO calcula un pequeño ajuste extra sobre la brújula general.
  • Le dice al modelo: "Para esta pregunta en concreto, necesitas mirar más a los guantes y menos a la mochila".
  • Esto hace que la corrección sea precisa y adaptativa para cada pregunta que te hagan.

3. ¿Cómo funciona "por dentro"? (Sin tecnicismos)

Imagina que el cerebro del modelo es una orquesta.

  • A veces, los instrumentos (las capas de la red neuronal) tocan una melodía falsa porque siguen la partitura vieja (el sesgo de lenguaje).
  • AFTER no cambia la partitura ni despiden a los músicos (no necesita reentrenar el modelo, lo cual es caro y lento).
  • En su lugar, un director de orquesta (el vector de edición) entra en medio de la canción y levanta la mano suavemente en los momentos exactos para que los instrumentos toquen la nota correcta (la verdad visual) en lugar de la nota falsa.

4. Los Resultados: ¿Funciona?

Los autores probaron esto en tres modelos diferentes y los resultados fueron increíbles:

  • Menos mentiras: Redujeron las alucinaciones en un 16.3% (¡casi un 17% menos de errores!).
  • Más rápido: No necesitan volver a estudiar ni reentrenar al modelo. Es como ponerle un filtro de gafas de sol: se hace al instante.
  • Más inteligente: El modelo no solo deja de mentir, sino que sigue siendo bueno describiendo cosas reales.

En resumen

AFTER es como darle a un turista soñador un mapa de la verdad y un guía local que le susurra al oído: "No, mira bien, es un guante, no dos". Así, el modelo deja de inventar cosas basándose en lo que cree que es normal, y empieza a describir lo que realmente ve.

Es una solución barata, rápida y muy efectiva para hacer que la Inteligencia Artificial sea más confiable y honesta al describir el mundo real.