Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los modelos de Inteligencia Artificial que ven y hablan (como los que describen fotos) son como detectives muy inteligentes, pero un poco despistados.

Aquí tienes la explicación de este paper, traducida a un lenguaje sencillo y con analogías divertidas:

🕵️‍♂️ El Problema: El Detective que "Inventa" la Historia

Imagina que le muestras a un detective dos fotos: una de un perro en el parque y otra de un gato en la cocina. Si le preguntas: "¿El perro y el gato están jugando juntos?", un modelo normal (llamado LVLM) podría decirte: "¡Sí! Se ven muy felices juntos".

¿Por qué? Porque el modelo es muy bueno leyendo y usando su imaginación (lo que los científicos llaman "priors lingüísticos"), pero es malo mirando las dos fotos al mismo tiempo para ver la realidad.

El fallo: Los modelos actuales miran las fotos como si fueran una fila de personas en un tren: la primera persona puede ver a las que van delante, pero las de atrás no pueden ver a las de delante. Esto crea un desequilibrio. El modelo termina "alucinando" (inventando cosas que no están) porque no conecta bien los puntos entre las imágenes.

💡 La Solución: CAPL (El "Puente" y el "Entrenamiento")

Los autores proponen una solución llamada CAPL. Imagina que es como darle al detective dos superpoderes nuevos:

1. El Puente Mágico (Atención Cruzada)

Antes, las fotos estaban separadas por un muro. El modelo miraba la foto A, luego la B, pero no podía cruzar la información libremente.

La analogía: Imagina que tienes dos grupos de amigos en habitaciones separadas. Antes, solo podían gritar a través de la pared de una manera desordenada.
La mejora: CAPL construye un puente de comunicación bidireccional. Ahora, un detalle importante de la foto A (como el collar del perro) puede "hablar" directamente con un detalle de la foto B (como el gato), y viceversa.
El truco: No conectan todo (sería demasiado ruido), sino que eligen solo a los "líderes" o detalles más importantes de cada foto para que hablen entre sí. Esto ayuda al modelo a ver la relación real entre las imágenes en lugar de inventar una.

2. El Entrenamiento de "Lo que NO hacer" (Aprendizaje por Preferencia)

Solo darle el puente no es suficiente; hay que entrenarlo para que lo use bien.

La analogía: Imagina que entrenas al detective para que no cometa errores.
- Paso A (La respuesta correcta): Le muestras las dos fotos con el puente activado y le preguntas la pregunta. Él ve la verdad y da la respuesta correcta.
- Paso B (La trampa): Le mostramos las mismas fotos, pero cortamos el puente (le tapamos los ojos para que no pueda ver la otra foto). Ahora, obligado a adivinar solo con una foto y su imaginación, el detective probablemente inventará una historia falsa (una alucinación).
El entrenamiento: Les decimos al modelo: "¡Mira! Cuando cortamos el puente, inventas tonterías. Cuando conectas el puente, ves la verdad. ¡Aprende a preferir siempre la verdad!".
Esto se llama Aprendizaje por Preferencia. El modelo aprende a castigar sus propias mentiras y a reforzar sus verdades visuales.

🚀 ¿Qué pasó en los resultados?

En tareas con varias fotos: El modelo dejó de inventar cosas. Se volvió mucho más preciso comparando imágenes (como decir "el perro está en la foto 1, no en la 2").
En tareas con una sola foto: ¡Sorprendente! Aunque solo entrenaron con dos fotos, el modelo no olvidó cómo trabajar con una sola. De hecho, se volvió un poco mejor, porque aprendió a confiar más en lo que ve y menos en lo que "cree" que debería pasar.

📝 En resumen

Este paper es como darle a un detective de IA:

Unas gafas especiales que le permiten ver dos fotos al mismo tiempo y conectar sus detalles importantes (Atención Cruzada).
Un entrenador estricto que le muestra sus errores cuando intenta adivinar sin ver todo, para que nunca más vuelva a inventar historias falsas (Aprendizaje por Preferencia).

El resultado es un sistema que mira de verdad antes de hablar, evitando las alucinaciones que tanto molestan en la inteligencia artificial actual.

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation" (Mirando hacia atrás y adelante: Calibración de Atención entre Imágenes y Aprendizaje de Preferencia Atenta para la Mitigación de Alucinaciones en Múltiples Imágenes), traducido y adaptado al español.

1. El Problema: Alucinaciones en Tareas de Múltiples Imágenes

Aunque los Modelos Grandes de Lenguaje Visuales (LVLMs) han demostrado capacidades notables en tareas de una sola imagen, sufren de alucinaciones significativas en escenarios de múltiples imágenes. Esto se manifiesta como la generación de respuestas plausibles pero fácticamente incorrectas, donde el modelo fusiona erróneamente información de diferentes imágenes o inventa entidades y atributos que no existen.

El artículo identifica dos causas estructurales principales de este problema en las arquitecturas Transformer autoregresivas actuales:

Flujo de información unidireccional y sesgo posicional: Los LVLMs estándar utilizan una máscara de atención causal. En un contexto de múltiples imágenes, esto significa que las imágenes posteriores pueden "ver" a las anteriores, pero las imágenes anteriores no tienen acceso a la información de las posteriores. Esto rompe la simetría necesaria para modelar relaciones semánticas estables entre imágenes.
Modelado insuficiente de asociaciones cruzadas: La falta de interacción bidireccional explícita obliga al modelo a depender excesivamente de priors lingüísticos (conocimiento previo del texto) en lugar de la evidencia visual genuina, lo que lleva a inferencias relacionales poco fiables.

2. Metodología Propuesta: CAPL

Los autores proponen un marco estructurado llamado CAPL (Cross-Image Attention calibration and Preference Learning), que aborda el problema a nivel arquitectónico y de entrenamiento mediante dos componentes principales:

A. Calibración de Atención entre Imágenes (Cross-Image Attention)

Para corregir el sesgo direccional, se introduce un mecanismo de interacción de tokens selectivo:

Atención Bidireccional Selectiva: Se rompe la restricción causal estricta entre diferentes imágenes, permitiendo que los tokens de una imagen interactúen bidireccionalmente con tokens de otras imágenes.
Selección de Tokens Clave: Para evitar ruido y redundancia, no se habilita la atención completa entre todas las imágenes. Se utiliza un mecanismo basado en la "energía" de los embeddings (norma L2) para seleccionar solo los tokens visuales más relevantes (los $\rho$ superiores, donde $\rho \approx 0.9$ ).
Estrategia de Fusión: Para mantener la estabilidad en tareas de una sola imagen y no perder la estructura secuencial, la atención causal original y la nueva atención cruzada selectiva se fusionan (promedio ponderado) o se aplican en capas alternas (capas impares con atención cruzada, pares con causal).

B. Aprendizaje de Preferencia Atenta (Attentive Preference Learning)

Dado que modificar la atención solo durante la inferencia es temporal, se propone un entrenamiento basado en Optimización de Preferencia Directa (DPO) para internalizar el comportamiento correcto:

Construcción de Muestras Positivas: Se generan respuestas utilizando el mecanismo de atención cruzada mejorado, refinadas posteriormente con un modelo avanzado (Qwen3) para garantizar corrección.
Construcción de Muestras Negativas (Truncadas): Para exponer las alucinaciones inherentes del modelo, se entrena una versión del modelo donde todas las conexiones de atención entre imágenes se cortan (se fuerza la independencia representacional). Esto obliga al modelo a depender únicamente de priores textuales e imágenes individuales, generando respuestas alucinadas que sirven como ejemplos negativos fuertes.
Objetivo de Pérdida Híbrida: El entrenamiento combina la pérdida DPO (para alinear preferencias entre respuestas correctas e incorrectas) con una pérdida de Negativa Log-Likelihood (NLL) sobre las muestras positivas. Esto asegura que el modelo no solo aprenda a preferir la respuesta correcta, sino que también imite la trayectoria de generación token a token basada en evidencia visual cruzada.

3. Contribuciones Clave

Análisis Estructural: Identificación del flujo de información visual desequilibrado y la falta de asociación semántica cruzada como factores limitantes clave en el razonamiento con múltiples imágenes.
Marco CAPL: Propuesta de una solución integral que integra la atención cruzada selectiva (a nivel de arquitectura) con el entrenamiento de alineación de preferencias (a nivel de optimización).
Mecanismo de Generación de Negativos: Innovación en la construcción de muestras negativas para DPO mediante el "truncamiento" de la atención entre imágenes, lo que genera alucinaciones controladas y desafiantes para un aprendizaje más robusto.
Generalización: Demostración de que el método mejora el rendimiento en tareas de múltiples imágenes sin degradar (e incluso mejorando ligeramente) las capacidades en tareas de una sola imagen.

4. Resultados Experimentales

Los experimentos se realizaron en tres modelos base principales: Qwen2.5-VL, InternVL2.5 y GLM4.1VBase, evaluados en diversos benchmarks:

Evaluación de Alucinaciones (BLINK y MUIRBench):
- CAPL logró mejoras consistentes en todos los modelos base.
- En MUIRBench (enfocado en razonamiento relacional complejo), las mejoras fueron notables, superando los 3.5 puntos en el mejor caso (ej. Qwen2.5-VL pasó de 58.42 a 62.00).
- Esto indica que incluso modelos avanzados tienen espacio de mejora en sus mecanismos de interacción entre imágenes.
Tareas Generales de Múltiples Imágenes (NLVR2, QBench2, etc.):
- El rendimiento se mantuvo estable o mejoró ligeramente, demostrando que la atención cruzada ayuda a un mejor entendimiento general y no solo a la reducción de alucinaciones.
Tareas de Una Sola Imagen (POPE, CHAIR, MMBench):
- No hubo degradación. De hecho, en algunos casos (como POPE en Qwen2.5-VL), el rendimiento mejoró, sugiriendo que el aprendizaje de preferencias en contextos complejos refuerza la capacidad del modelo para usar señales visuales incluso en contextos simples.
Estudios de Ablación:
- Se confirmó que la atención cruzada por sí sola aporta mejoras modestas, pero combinada con el entrenamiento DPO (especialmente con muestras negativas truncadas), el rendimiento aumenta drásticamente.
- Las muestras negativas generadas con atención truncada fueron significativamente más desafiantes (menor precisión) que las generadas por el modelo base, proporcionando señales de optimización más fuertes.

5. Significado e Impacto

Este trabajo es significativo porque aborda la raíz estructural de las alucinaciones en LVLMs para múltiples imágenes, en lugar de aplicar parches superficiales en la decodificación.

Cambio de Paradigma: Propone pasar de un flujo de información unidireccional (causal) a uno bidireccional y simétrico entre imágenes para tareas de comparación y razonamiento.
Estrategia de Entrenamiento Eficiente: La técnica de generar muestras negativas truncando la atención es una contribución metodológica importante para el campo del alineamiento de modelos (Alignment), ya que permite explotar las debilidades del modelo de manera controlada para su corrección.
Robustez: CAPL demuestra que es posible mejorar la capacidad de razonamiento complejo sin sacrificar la generalidad del modelo, lo cual es crucial para la adopción de LVLMs en aplicaciones del mundo real que requieren integración de información visual compleja.

En resumen, CAPL establece un nuevo estándar para mitigar alucinaciones en escenarios multimodales complejos mediante la corrección arquitectónica de la atención y el aprendizaje de preferencias basado en evidencia visual cruzada.