One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un asistente muy inteligente (un Modelo de Lenguaje Multimodal o MLLM) que puede ver fotos y hablar contigo. El problema es que, a veces, este asistente es un poco "soñador": ve una foto de un perro y, en lugar de decir "es un perro", empieza a inventar historias sobre un gato que no está en la imagen. A esto los expertos lo llaman alucinación.

Este paper presenta una solución genial llamada "Un Token, Dos Destinos". Aquí te lo explico como si fuera una historia:

1. El Problema: La Batalla entre la Vista y la Memoria

Imagina que tu asistente tiene dos voces internas:

La Voz de la Vista: Le dice lo que realmente ve en la foto.
La Voz de la Memoria (o "Inercia del Texto"): Le dice lo que cree que debería ver basándose en lo que ha leído antes en internet.

El desastre actual: Cuando el asistente empieza a hablar, la "Voz de la Vista" se cansa y se apaga poco a poco. La "Voz de la Memoria" se vuelve más fuerte y toma el control, inventando cosas que no existen.

Los métodos anteriores intentaban arreglar esto de dos formas separadas (y fallidas):

Gritar más fuerte a la Vista: Intentaban hacer que la "Voz de la Vista" gritara más fuerte. Pero si la "Voz de la Memoria" es muy fuerte, no sirve de mucho.
Tapar la Memoria: Intentaban silenciar la "Voz de la Memoria" usando fotos distorsionadas (como ponerle un parche negro a la foto). Pero esto creaba "ruido" y confusión, como intentar arreglar un motor con piezas de otro coche.

2. La Solución: Un Solo Token, Dos Misiones

Los autores descubrieron que la clave está en un pequeño componente llamado "Token de Visión" (piensa en él como un mensajero que lleva la información de la foto al cerebro del asistente).

En lugar de usar dos estrategias separadas, crearon un sistema unificado que usa a este mensajero para dos misiones al mismo tiempo:

Misión A: El Refuerzo Visual (SVC) - "El Doble de Seguridad"

La analogía: Imagina que estás intentando ver un objeto borroso en la niebla. Si solo miras una vez, puedes equivocarte. Pero si alguien te da una segunda foto del mismo objeto, pero con un poco de luz diferente o desde otro ángulo, ¡lo entiendes mejor!
Cómo funciona: El sistema toma la foto original y crea una versión "mejorada" (con un poco de ruido o cambios). Luego, mezcla los mensajes de ambas fotos. Esto le da al asistente una "memoria visual" más rica y fuerte, evitando que la voz de la vista se apague.

Misión B: La Calibración de Sesgos (CRC) - "El Laboratorio de Errores"

La analogía: Imagina que quieres saber qué tan bueno es un chef cocinando. Para saberlo, no solo le das los ingredientes perfectos; también le das una receta sin ingredientes clave para ver qué inventa. Si el chef dice "¡Es una pizza de queso!" cuando no hay queso, sabes que está inventando.
Cómo funciona: En lugar de arruinar la foto (como hacían los métodos viejos), el sistema simplemente borra algunos de los mensajes (tokens) de la foto en su "mente" (en el espacio latente). Esto crea una situación donde el asistente no tiene toda la información visual.
- Cuando el asistente intenta responder a esta foto "mutilada" en su mente, su tendencia a inventar (su sesgo) se hace visible.
- El sistema detecta esa tendencia a inventar y la resta de la respuesta real. Es como decir: "Oye, sé que tiendes a inventar un gato aquí, así que voy a restar esa idea de tu respuesta final".

3. ¿Por qué es tan bueno?

No necesita entrenamiento: No hay que volver a enseñarle al asistente a ver. Solo se le da un "truco" en el momento de hablar.
Es rápido: A diferencia de otros métodos que hacen que el asistente piense el doble de tiempo, este solo añade un 6% de tiempo extra (casi imperceptible).
Funciona de verdad: En pruebas reales, el asistente deja de inventar objetos que no existen y describe las fotos con mucha más precisión, sin perder su capacidad de razonar.

En resumen

Imagina que el asistente es un turista en un país extraño.

Antes: Se cansaba de mirar el mapa (la foto) y empezaba a seguir las indicaciones de los locales (la memoria) que le decían cosas falsas.
Ahora: Le damos un mapa de respaldo (Refuerzo Visual) para que no se pierda, y le enseñamos a reconocer cuándo está siguiendo un rumor falso (Calibración de Sesgos) para que lo ignore.

El resultado es un asistente que ve lo que realmente hay en la foto y no lo que le gustaría que hubiera. ¡Un equilibrio perfecto entre lo que ve y lo que piensa!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination" en español:

1. El Problema: Alucinaciones en MLLMs y el Desequilibrio Visión-Lenguaje

Los Modelos de Lenguaje Multimodales (MLLMs) sufren de un defecto crítico conocido como alucinación, donde generan texto fluido que contradice la evidencia visual.

Causa Raíz: El artículo identifica que la alucinación surge de un desequilibrio fundamental: a medida que el modelo genera texto, la señal visual se debilita progresivamente, permitiendo que el fuerte "inercia del lenguaje" (priors lingüísticos internos del modelo) domine la generación.
Limitación de Métodos Actuales: Las estrategias existentes sin entrenamiento (training-free) abordan este problema de forma aislada:
- Mejora visual: Intentan amplificar la señal visual (ej. aumentando pesos de atención), pero a menudo no es suficiente para contrarrestar la inercia del lenguaje.
- Supresión de texto: Intentan corregir la inercia lingüística usando muestras negativas generadas por distorsión de imágenes (ej. enmascaramiento de píxeles). Sin embargo, esto introduce ruido y señales inestables fuera de la distribución (out-of-distribution).
- Fallo de la combinación ingenua: Combinar simplemente estos dos enfoques dispares no funciona porque operan en diferentes niveles y momentos, generando señales conflictivas.

2. Metodología: Un Marco Unificado de Calibración Latente

Los autores proponen un marco unificado y sin entrenamiento que opera exclusivamente en las representaciones latentes intermedias, utilizando el token de visión como activo central para dos roles complementarios.

Hallazgos Fundamentales

Complementariedad Semántica: Las imágenes aumentadas (con transformaciones como giro, desenfoque, ruido) ofrecen semánticas visuales complementarias a la imagen original.
Ventaja del "Vacío de Información" (Information-Gap): Eliminar tokens de visión en el espacio latente (pruning) genera muestras negativas más estables y relevantes para detectar sesgos que distorsionar imágenes a nivel de píxeles (que crea un "vacío de modalidad" ruidoso).

Componentes del Marco

El sistema integra dos módulos que actúan sobre los tokens de visión:

A. Calibración Visual Sinérgica (SVC - Synergistic Visual Calibration):
- Objetivo: Contrarrestar el desvanecimiento visual (visual fading).
- Mecanismo: Construye un banco de memoria visual sinérgica concatenando los tokens de la imagen original y una versión aumentada.
- Acción: Inyecta este contexto visual enriquecido en una capa intermedia crítica del modelo mediante atención. Esto refuerza la anclaje visual sin alterar la decodificación final.
B. Calibración de Representación Causal (CRC - Causal Representation Calibration):
- Objetivo: Suprimir la inercia del lenguaje y purificar los sesgos internos.
- Mecanismo: Genera "muestras negativas en el espacio latente" eliminando aleatoriamente la mayoría de los tokens de visión (dejando solo unos pocos, ej. 5), creando un "vacío de información".
- Acción: Calcula un vector direccional de alucinación estable ( $v_{crc}$ ) restando la representación de la muestra negativa de la original. Luego, ajusta las representaciones ocultas del modelo restando esta dirección de alucinación, purificando así el estado oculto hacia la verdad visual.

3. Contribuciones Clave

Reencuadre del Problema: Se presenta la mitigación de alucinaciones como un problema de equilibrio visión-lenguaje, demostrando que los enfoques disjuntos fallan y que su combinación ingenua es ineficaz.
Primer Marco Unificado Latente: Se propone un sistema que armoniza la mejora y la supresión operando enteramente sobre representaciones intermedias, utilizando el token de visión como fuente única para ambos propósitos.
Módulos Eficientes (SVC y CRC): Introducción de dos módulos novedosos que no requieren reentrenamiento, logrando una calibración precisa mediante la manipulación de tokens latentes.

4. Resultados Experimentales

El marco se evaluó en múltiples arquitecturas (LLaVA-1.5, MiniGPT-4, Shikra, InstructBLIP) y benchmarks estándar:

Benchmarks de Alucinación de Objetos (POPE y CHAIR):
- En POPE, el método supera consistentemente a los baselines más fuertes (VCD, PAI, VISTA). Por ejemplo, en LLaVA-1.5 (split GQA), logra un 81.54% de precisión (un aumento de ~2% absoluto sobre el estado del arte anterior).
- En CHAIR, logra las puntuaciones más bajas (mejores) en detección de objetos alucinados, confirmando una supresión efectiva de la generación no fundamentada.
Benchmarks Generales (MME y MMHal-Bench):
- El método mejora o mantiene las capacidades generales de percepción y cognición, demostrando que la mitigación de alucinaciones no degrada el rendimiento general del modelo.
Eficiencia Computacional:
- Es altamente eficiente con un sobrecosto de latencia de solo 1.06x en comparación con la inferencia greedy estándar.
- Es significativamente más rápido que métodos como VCD (2.4x más lento) y consume menos memoria GPU.

5. Significado e Impacto

Este trabajo es significativo porque:

Unifica paradigmas: Resuelve la tensión entre mejorar la visión y suprimir el lenguaje bajo un mismo marco teórico cohesivo.
Valida la manipulación latente: Demuestra que la manipulación de tokens en el espacio latente (especialmente mediante el "vacío de información") es superior a las técnicas de distorsión de píxeles para la calibración de modelos.
Solución práctica: Ofrece una solución training-free (sin reentrenamiento) que es fácil de implementar, computacionalmente ligera y efectiva en diversos modelos MLLM, facilitando su adopción en aplicaciones reales donde la fiabilidad visual es crítica.

En resumen, el artículo presenta un avance fundamental al tratar el token de visión no solo como un portador de información, sino como una herramienta dual para fortalecer la anclaje visual y purificar los sesgos lingüísticos simultáneamente.