Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Each language version is independently generated for its own context, not a direct translation.

Il Problema: L'AI che "sogna" a occhi aperti

Immagina di avere un assistente super intelligente (un modello di intelligenza artificiale chiamato LVLM) che è bravissimo a guardare una singola foto e raccontarti cosa c'è dentro. È come un turista che visita una città: guarda un monumento e ti dice com'è fatto.

Tuttavia, quando gli mostri due o più foto insieme per chiedergli di confrontarle (ad esempio: "Quali differenze ci sono tra la foto A e la foto B?"), questo assistente inizia a fare confusione. Invece di guardare davvero le due immagini, tende a "inventare" cose basandosi su quello che pensa dovrebbe essere vero, o mescola i dettagli delle due foto come se fossero un'unica immagine gigante. Questo fenomeno si chiama allucinazione.

È come se tu chiedessi a un amico: "Guarda queste due foto di due cani diversi. Quale dei due ha le orecchie più lunghe?" e lui, invece di guardare le foto, rispondesse basandosi su un ricordo vago di un cane che ha visto anni fa, inventandosi dettagli che non esistono.

La Causa: Una conversazione a senso unico

Perché succede? Il paper spiega che i modelli attuali parlano alle immagini come se fossero in una fila indiana.
Immagina di avere tre persone in fila (le tre foto). La persona in fondo può vedere chi c'è davanti, ma chi è davanti non può vedere chi c'è dietro.
Questa è la struttura "causale" attuale: l'AI guarda la prima foto, poi la seconda, poi la terza. Ma non può guardare la terza per capire meglio la prima. È come se la conversazione fosse bloccata in una direzione sola, creando un pregiudizio (bias) che impedisce di collegare bene i punti tra le immagini.

La Soluzione: CAPL (Il "Ponte" e il "Gioco di Ruolo")

Gli autori propongono un nuovo metodo chiamato CAPL (Cross-Image Attention Calibration and Preference Learning). Immaginalo come un sistema in due fasi per addestrare l'AI a essere più attenta.

Fase 1: Costruire un Ponte (Attenzione Incrociata)

Prima di tutto, rompono la "fila indiana". Introducono un meccanismo che permette alle immagini di guardarsi reciprocamente.

L'analogia: Invece di far parlare le foto in fila, mettono tutti in una stanza con un tavolo rotondo. Ora, la Foto A può guardare la Foto C, e la Foto C può guardare la Foto A.
Il filtro intelligente: Non fanno guardare tutto a tutti (sarebbe troppo confuso e rumoroso). Selezionano solo i "dettagli chiave" (i pezzi più importanti di ogni foto) e permettono a questi di parlarsi direttamente. È come se i protagonisti di due film diversi potessero incontrarsi per confrontare le loro storie, ignorando i comparse di sfondo.

Fase 2: Il Gioco di Ruolo (Apprendimento per Preferenza)

Ora che l'AI può guardare le immagini in modo corretto, dobbiamo insegnarle a volerlo fare. Qui entra in gioco una tecnica chiamata DPO (Direct Preference Optimization).

Immagina di addestrare l'AI con un gioco di "Sì/No":

La risposta "Giusta" (Positiva): L'AI guarda le foto usando il "Ponte" (la Fase 1) e risponde correttamente.
La risposta "Sbagliata" (Negativa): Qui sta la genialità del paper. Per creare una risposta sbagliata, gli autori chiudono il ponte e costringono l'AI a guardare le foto come se fossero isolate, senza poterle confrontare. In questa situazione, l'AI è costretta a "sognare" o inventare risposte basandosi solo su ciò che sa già (i suoi pregiudizi).

Poi, l'AI viene addestrata a dire: "Voglio la risposta del Ponte (quella vera), non voglio la risposta isolata (quella inventata)".
È come se un allenatore mostrasse a un calciatore una giocata perfetta (con il passaggio tra i compagni) e una giocata fallita (dove il giocatore ha provato a tirare da solo senza guardare i compagni), dicendogli: "Fai sempre la prima, evita la seconda".

I Risultati: Un Supereroe che non dimentica le sue radici

Cosa è successo dopo aver applicato questo metodo?

Meno allucinazioni: L'AI è diventata molto più brava a confrontare immagini senza inventare cose.
Migliore ragionamento: Non solo non sbaglia più, ma capisce meglio le relazioni complesse (es. "Quale oggetto è più vicino in entrambe le foto?").
Nessun danno alle vecchie abilità: La cosa più bella è che, anche se l'AI è stata addestrata a guardare due foto, non ha perso la capacità di guardare una sola foto. Anzi, è diventata ancora più precisa anche nei compiti semplici. È come se un detective, imparando a confrontare due scene del crimine, diventasse anche più bravo a risolvere un singolo caso.

In Sintesi

Il paper ci dice che per evitare che l'AI "sogni" quando guarda più immagini, dobbiamo:

Farle guardare le immagini in modo reciproco (non a senso unico).
Fargli vedere la differenza tra una risposta basata sulla realtà visiva e una basata sulle sue "fantasie", insegnandole a preferire la realtà.

È un po' come insegnare a un bambino a non fidarsi di ciò che immagina, ma a guardare davvero i due disegni che ha davanti prima di dire qual è la differenza.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation", tradotto e strutturato in italiano.

1. Il Problema: Allucinazioni nei Modelli Vision-Language (LVLM) Multi-Immagine

Nonostante i notevoli progressi dei Large Vision-Language Models (LVLM) in compiti a immagine singola, questi modelli soffrono di gravi allucinazioni (generazione di risposte plausibili ma fattualmente errate) quando elaborano input multi-immagine.
Le cause principali identificate dagli autori sono:

Limitazioni dei meccanismi di attenzione esistenti: La maggior parte degli LVLM basati su Transformer utilizza un meccanismo di attenzione causale unidirezionale. In questo schema, le immagini successive possono "vedere" quelle precedenti, ma le immagini precedenti non hanno accesso alle rappresentazioni delle immagini successive.
Squilibrio nel flusso di informazioni: Questa asimmetria introduce un pregiudizio posizionale, impedendo una modellazione relazionale simmetrica e stabile tra le immagini.
Dipendenza dai prior linguistici: A causa della mancanza di interazioni visive cross-immagine sufficienti, il modello tende a fare affidamento su prior testuali e associazioni superficiali, portando a inferenze relazionali errate (es. fondere erroneamente informazioni da immagini diverse).

2. Metodologia: Il Framework CAPL

Gli autori propongono un nuovo framework chiamato CAPL (Cross-Image Attention calibration and Preference Learning), che combina due componenti principali per mitigare le allucinazioni:

A. Calibrazione dell'Attenzione Cross-Immagine (Cross-Image Attention Calibration)

Per risolvere il pregiudizio posizionale e abilitare interazioni bidirezionali:

Meccanismo di Attenzione Selettiva: Viene introdotto un meccanismo che riattiva le connessioni di attenzione tra token di immagini diverse, rompendo il vincolo causale unidirezionale tra le immagini (mantenendo però la causalità all'interno della stessa immagine).
Selezione dei Token Chiave: Poiché un'attenzione completa tra tutte le immagini potrebbe introdurre rumore, viene implementata una selezione basata sull'energia dell'embedding. Vengono selezionati solo i token visivi con la massima intensità di risposta (i "token chiave") per interagire tra le immagini.
Fusione e Alternanza: L'attenzione cross-immagine selettiva viene fusa con l'attenzione causale originale. Inoltre, viene adottata una strategia di maschera alternata a livello di layer del decoder (layer dispari usano l'attenzione cross-immagine, pari usano quella causale) per bilanciare la modellazione relazionale con la stabilità generativa.

B. Apprendimento delle Preferenze Attentive (Attentive Preference Learning)

Poiché modificare l'attenzione solo durante l'inferenza non è sufficiente (il modello pre-addestrato non è adattato a questa nuova dinamica), viene proposta una strategia di addestramento basata su Direct Preference Optimization (DPO):

Costruzione del Campione Positivo ( $y^+$ ): Vengono generate risposte utilizzando il meccanismo di attenzione cross-immagine corretto (bidirezionale) e raffinate con un modello avanzato (Qwen3) per garantire correttezza.
Costruzione del Campione Negativo ( $y^-$ ): Per esporre i comportamenti allucinatori del modello, viene utilizzata una maschera di attenzione tronca. In questo scenario, tutte le connessioni di attenzione tra immagini diverse vengono bloccate ( $-\infty$ ), costringendo il modello a fare affidamento esclusivamente su singole immagini e prior testuali. Questo forza il modello a generare risposte allucinate (negativo) che riflettono i suoi errori intrinseci.
Ottimizzazione: Il modello viene addestrato a preferire le risposte generate con l'attenzione completa rispetto a quelle generate con l'attenzione tronca, imparando a basare le inferenze su evidenze visive reali e non su prior testuali.
Loss Ibrida: L'obiettivo di addestramento combina la loss DPO (per l'allineamento delle preferenze) e una loss NLL (Negative Log-Likelihood) sui campioni positivi per garantire che il modello imiti anche la traiettoria di generazione token-level corretta.

3. Contributi Chiave

Analisi Strutturale: Identificazione del flusso di informazioni visive sbilanciato e dell'associazione semantica insufficiente come cause fondamentali delle allucinazioni multi-immagine.
Framework CAPL: Introduzione di un approccio integrato che unisce un meccanismo di attenzione inter-immagine selettivo (architetturale) con un'ottimizzazione delle preferenze basata su contrasti controllati (addestramento).
Generazione di Campioni Negativi Innovativa: Uso della "truncation" dell'attenzione cross-immagine per generare campioni negativi difficili che esplicitamente rivelano i pattern di allucinazione del modello, superando i limiti dei metodi tradizionali di costruzione di dati negativi.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su tre modelli base diversi (Qwen2.5-VL, InternVL2.5, GLM4.1VBase) e valutati su benchmark diversificati:

Task di Allucinazione Multi-Immagine: Su benchmark specifici come BLINK e MUIRBench, CAPL ha mostrato miglioramenti consistenti (da 1 a oltre 3.5 punti di guadagno) rispetto ai modelli base, dimostrando una forte capacità di ridurre le allucinazioni relazionali.
Task Generali Multi-Immagine: Su benchmark come NLVR2, QBench2 e MIBench, le prestazioni sono rimaste stabili o sono migliorate leggermente, indicando che la correzione dell'attenzione non degrada le capacità generali di ragionamento.
Task a Immagine Singola: Il modello mantiene o migliora le prestazioni su benchmark a immagine singola (es. POPE, CHAIR, MMBench), dimostrando un'eccellente capacità di generalizzazione e il fatto che il metodo non distrugge le conoscenze pregresse del modello.
Ablazione: Gli studi dimostrano che sia l'attenzione cross-immagine che l'addestramento DPO con campioni negativi troncati sono essenziali; la combinazione dei due produce i risultati migliori, con un effetto sinergico.

5. Significato e Impatto

Questo lavoro è significativo perché affronta il problema delle allucinazioni non solo a livello di dati o di decoding, ma a livello architetturale e di ottimizzazione.

Dimostra che la struttura causale unidirezionale standard è un collo di bottiglia per il ragionamento multi-immagine.
Fornisce una soluzione pratica che non richiede un ri-addestramento massivo da zero, ma si basa su un fine-tuning mirato (LoRA) con una strategia di preferenza intelligente.
Stabilisce un nuovo paradigma per la modellazione delle relazioni visive, dove l'interazione bidirezionale controllata e l'addestramento basato su contrasti negativi "difficili" sono cruciali per la robustezza dei modelli multimodali complessi.

In sintesi, CAPL trasforma la capacità dei LVLM di "guardare avanti e indietro" tra le immagini, permettendo loro di costruire relazioni semantiche stabili e riducendo drasticamente le allucinazioni senza sacrificare le capacità generali.