Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Modelos de Lenguaje y Visión Grandes (LVLMs) son como unos genios muy inteligentes pero un poco soñadores. Pueden ver una foto y contarte una historia increíble sobre ella, pero a veces, en su entusiasmo, inventan detalles que no existen en la realidad. A esto lo llamamos "alucinación".

Por ejemplo, si les muestras una foto de un gato, podrían decirte: "¡Mira, ese gato está tocando el piano!". Pero en la foto no hay piano.

El Problema: Los viejos trucos ya no funcionan

Antes, los científicos sabían por qué estos genios soñaban tanto. Pensaban que:

Se fiaban más de lo que leían que de lo que veían: Si el texto les sugería algo, lo creían aunque la foto dijera lo contrario.
"Sobre-pensaban": Al principio veían bien la foto, pero cuanto más pensaban (cuántas capas de su cerebro procesaban la información), más olvidaban lo que realmente veían y empezaban a inventar.

Los investigadores crearon trucos para arreglar esto. Pero, ¡sorpresa! Con los modelos más nuevos y potentes (como el Qwen2.5-VL-7B mencionado en el papel), esos viejos trucos ya no funcionan. De hecho, a veces los empeoran. Es como intentar arreglar un coche de Fórmula 1 con las herramientas de un coche antiguo; no encaja.

La Solución: ICLA (El "Auto-corrección Interna")

El autor del artículo, April Fu, propone una solución genial llamada ICLA.

Imagina que el modelo es un equipo de detectives trabajando en un caso (la imagen).

Antes: Cada detective (cada "capa" del modelo) trabajaba solo. Si el detective del final se equivocaba, no podía consultar a los anteriores.
Con ICLA: Ahora, cada detective tiene un sistema de comunicación instantánea con todos los detectives que trabajaron antes que él.

¿Cómo funciona la magia?

La Pregunta: Cuando el detective actual está a punto de dar su respuesta, se pregunta: "¿Qué vieron mis compañeros antes de mí?".
La Búsqueda Selectiva: No consulta a todos por igual. Usa una "lupa mágica" (atención en capas) para buscar solo la información relevante de los detectives anteriores que están en la misma posición de la imagen.
La Corrección: Si el detective actual está a punto de decir "hay un piano", pero recuerda que el detective de hace 5 pasos vio claramente "un gato", se corrige a sí mismo: "¡Espera! Mis compañeros anteriores vieron un gato. Mejor digo que es un gato".

Esto ocurre mientras el modelo está pensando, sin necesidad de que un humano le grite "¡Eso está mal!" desde fuera. El modelo se autocorrige en tiempo real.

¿Por qué es tan especial?

Es un "chupito" de inteligencia: El modelo es enorme, pero esta nueva herramienta es diminuta (como añadir un solo gramo de peso a un camión). Solo necesita entrenar unos pocos parámetros extra (muy pocos datos) para aprender a usar esta comunicación.
Funciona en los genios más avanzados: A diferencia de los trucos viejos que fallaban en los modelos nuevos, ICLA brilla especialmente en ellos. En las pruebas, el modelo Qwen2.5-VL-7B, que antes fallaba mucho, mejoró drásticamente gracias a ICLA.
Es como un espejo de verdad: En lugar de inventar, el modelo se mira en el espejo de su propio proceso de pensamiento para asegurarse de que lo que dice coincide con lo que ve.

En resumen

El papel nos dice: "Los viejos problemas de los robots que alucinan han cambiado. Ya no podemos arreglarlos con las mismas herramientas de siempre. Necesitamos que el robot se escuche a sí mismo, consultando sus propios recuerdos anteriores para no inventar cosas."

ICLA es ese mecanismo que permite al robot revisar su propio trabajo paso a paso, asegurándose de que la historia que cuenta sobre la foto sea tan real como la foto misma. ¡Es como darle al robot un poco de conciencia de sí mismo para que deje de soñar despierto!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision–Language Models" (Autocorrección dentro del modelo: Aprovechando la atención de capas para mitigar las alucinaciones en Modelos Grandes de Visión y Lenguaje), traducido y adaptado al español.

Resumen Técnico: ICLA (Internal self-Correction utilizing Layer Attention)

1. El Problema: La evolución de las alucinaciones en LVLMs

Los Modelos Grandes de Visión y Lenguaje (LVLMs) han avanzado significativamente, pero siguen sufriendo de alucinaciones: situaciones en las que el texto generado no se basa en la entrada visual (describiendo objetos o relaciones inexistentes).

Históricamente, se han identificado dos patrones principales de alucinación:

Desequilibrio de modalidades: El modelo confía demasiado en los priores lingüísticos y poco en la evidencia visual.
Fenómeno de "sobre-pensamiento" (Overthinking): El modelo captura información correcta en las primeras capas, pero la suprime progresivamente en las capas más profundas.

El hallazgo crítico del artículo:
El autor observa que, con el uso de datos de mayor calidad y estrategias de entrenamiento más sofisticadas en modelos avanzados recientes (como Qwen2.5-VL-7B), estos patrones de alucinación ya no son consistentes ni evidentes.

Las técnicas de mitigación existentes (como DoLA, VCD, DeCo), diseñadas para corregir esos patrones específicos, fallan o incluso degradan el rendimiento en modelos modernos.
Esto indica la necesidad de un nuevo paradigma de mitigación que sea adaptable y no dependa de patrones de error predefinidos.

2. Metodología: ICLA (Autocorrección Interna mediante Atención de Capas)

Se propone ICLA, un mecanismo que opera directamente sobre los estados ocultos del modelo durante la generación, sin necesidad de señales de corrección externas.

Arquitectura y Funcionamiento:

Mecanismo Central: Cada capa del modelo puede recuperar selectivamente información de todas las capas anteriores mediante un mecanismo de atención cruzada entre capas (Cross-Layer Attention).
Proceso de Refinamiento:
1. Se mantiene una caché de los estados ocultos desde una capa inicial $k_0$ hasta la capa actual $l$ .
2. El estado oculto de la capa actual actúa como la consulta (Query).
3. Los estados ocultos de las capas anteriores actúan como claves (Keys) y valores (Values).
4. Se aplica una máscara de atención diagonal en la dimensión de los tokens. Esto es crucial: asegura que el token en la posición $i$ de la capa actual solo atienda al token en la misma posición $i$ de las capas anteriores, evitando la contaminación cruzada entre diferentes posiciones.
5. La salida de la atención se integra de nuevo en el estado oculto actual para refinarlo y corregir posibles alucinaciones antes de pasar a la siguiente capa.

Eficiencia:

El módulo de atención cruzada (CLA) comparte parámetros en toda la red.
Se utiliza un cuello de botella (bottleneck) para reducir la dimensión latente, minimizando el costo computacional.
Solo se introducen y entrenan parámetros adicionales muy pequeños: 0.2M para LLaVA1.5-7B y 0.1M para Qwen2.5-VL-7B.

3. Contribuciones Clave

Identificación de la obsolescencia de métodos anteriores: Demostración empírica de que los patrones de alucinación tradicionales y sus soluciones ya no son efectivos en LVLMs de última generación.
Propuesta de ICLA: Un mecanismo de autocorrección interna que permite a cada estado oculto recuperar y refinar información de capas previas de forma adaptativa, sin depender de patrones de error específicos.
Rendimiento Superior en Modelos Avanzados: Validación experimental que muestra que ICLA es particularmente efectivo en modelos complejos como Qwen2.5-VL-7B, donde otros métodos fallan.

4. Resultados Experimentales

El método se evaluó en dos modelos base (LLaVA1.5-7B y Qwen2.5-VL-7B) utilizando múltiples benchmarks de alucinación (MME, LLaVA-Bench, MMMU, POPE).

En LLaVA1.5-7B: ICLA superó consistentemente a todos los baselines (incluyendo DoLA, VCD, DeCo, DAMO).
- Mejora de 15 puntos en MME sobre el modelo base.
- Mejora del 2.3% en precisión en LLaVA-Bench.
En Qwen2.5-VL-7B (Modelo Avanzado):
- La mayoría de los métodos existentes causaron una caída significativa en el rendimiento (ej. DoLA cayó drásticamente).
- ICLA logró una mejora notable de 22 puntos en MME y alcanzó el estado del arte (SOTA) en LLaVA-Bench (90.2% de precisión, un 3.2% de mejora sobre el modelo base).
- En tareas de "Descripción Detallada" y "Conversación", las mejoras fueron de hasta un 9.5%.
Estudios de Ablación:
- El método es robusto a cambios en hiperparámetros (capa de inicio $k_0$ , ratio de reducción $r$ , factor de escala $\alpha$ ).
- La atención completa en todas las capas es superior a aplicar atención solo en la última capa o agregaciones aleatorias.
Análisis de Atención: En Qwen2.5-VL-7B, ICLA muestra que las capas intermedias (19-21) y profundas (24-25) son las más críticas para la recuperación de información, mientras que otras capas son ignoradas, revelando un patrón de "consolidación y abstracción" dinámico.

5. Significado e Impacto

Adaptabilidad: ICLA ofrece una solución escalable para la próxima generación de LVLMs, donde los errores no siguen patrones lineales predecibles.
Eficiencia: Al requerir un entrenamiento mínimo (solo unos cientos de miles de parámetros adicionales) y tener un sobrecosto computacional de inferencia insignificante (<0.4%), es una solución práctica para la industria.
Herramienta de Análisis: El mecanismo de atención de capas no solo corrige alucinaciones, sino que sirve como una herramienta analítica para entender cómo los modelos avanzados distribuyen su enfoque de razonamiento a través de la profundidad de la red.

En conclusión, el artículo demuestra que la autocorrección interna basada en la atención entre capas es una vía superior para garantizar la fiabilidad visual en modelos multimodales avanzados, superando las limitaciones de las técnicas de corrección externas o basadas en patrones históricos.

Self-Correction Inside the Model: Leveraging Layer Attention to Mitigate Hallucinations in Large Vision Language Models

El Problema: Los viejos trucos ya no funcionan

La Solución: ICLA (El "Auto-corrección Interna")

¿Por qué es tan especial?

En resumen

Resumen Técnico: ICLA (Internal self-Correction utilizing Layer Attention)

1. El Problema: La evolución de las alucinaciones en LVLMs

2. Metodología: ICLA (Autocorrección Interna mediante Atención de Capas)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

CANGuard: A Spatio-Temporal CNN-GRU-Attention Hybrid Architecture for Intrusion Detection in In-Vehicle CAN Networks

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy