Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente virtuale molto intelligente, capace di vedere le foto e descriverle con parole. È come un amico che guarda un'immagine e ti racconta cosa c'è dentro. Tuttavia, a volte questo "amico" ha un problema: allucina.

Cosa significa? Significa che, invece di dirti la verità su ciò che vede, inizia a inventare cose. Se guardi una foto di un tavolo con delle mele, lui potrebbe dirti: "C'è un'arancia, un gatto e un ombrello", anche se nella foto non c'è assolutamente nulla di tutto questo. È come se il suo cervello si fosse confuso e avesse mescolato i ricordi con la fantasia.

Gli scienziati hanno creato un nuovo metodo chiamato CIPHER per risolvere questo problema, senza dover "riprogrammare" o addestrare di nuovo il modello (che sarebbe costoso e lento). Ecco come funziona, spiegato con delle metafore semplici:

1. Il Problema: L'Amico che Sogna ad Occhi Aperti

I modelli attuali (chiamati LVLM) sono bravissimi, ma quando guardano un'immagine, a volte il loro "cervello" si perde e aggiunge dettagli che non esistono. È come se guardassi un quadro e iniziassi a vedere mostri che non ci sono.

2. La Soluzione: CIPHER (Il "Detective" delle Allucinazioni)

CIPHER non cerca di insegnare al modello a essere più intelligente (non lo "studia"). Invece, agisce come un detective che lavora in due fasi:

Fase 1: Creare la "Prova del Reato" (Offline)

Prima di tutto, i ricercatori creano un laboratorio speciale. Prendono delle foto vere e le modificano un po' usando una tecnologia magica chiamata Diffusion (che è come un pittore che può aggiungere o togliere oggetti da un quadro).

Prendono una foto di un tavolo con delle mele.
Usano l'intelligenza artificiale per modificare la foto e aggiungere falsi oggetti (per esempio, aggiungono un'arancia che non c'era).
Chiedono al modello: "Cosa vedi?". Il modello, vedendo l'arancia falsa, dirà: "Vedo un'arancia!".
Poi confrontano la risposta del modello per la foto vera con quella per la foto falsa.

Immagina di prendere le "impronte digitali" del pensiero del modello quando sbaglia. CIPHER trova un sentiero segreto (uno spazio matematico) dove il cervello del modello va quando inizia a inventare cose. È come trovare la strada che porta al "paese delle menzogne".

Fase 2: Il Blocco al Test (Inference)

Ora, quando il modello deve descrivere una foto vera per un utente, CIPHER interviene in tempo reale.

Mentre il modello sta pensando e scrivendo la descrizione, CIPHER controlla il suo "cervello" (i suoi stati nascosti).
Se nota che il modello sta iniziando a camminare lungo quel "sentiero segreto" delle menzogne (quello trovato nella Fase 1), CIPHER lo spinge via.
È come se avessi un guardiano che, quando vede il modello stare per dire "C'è un'arancia!", gli dice: "Ehi, fermati! Non c'è nessuna arancia, torna sulla strada della verità".

3. Perché è Geniale?

Non serve studiare: Non devi riaddestrare il modello per mesi. CIPHER è come un filtro che metti sopra gli occhiali del modello mentre lavora.
È veloce: Non rallenta il processo. Il modello risponde subito, ma senza le bugie.
È preciso: Funziona meglio dei metodi precedenti perché si concentra proprio sulle cose che il modello vede male, non solo su quelle che dice male.

In Sintesi

Immagina che CIPHER sia un regista attento che sta guardando un attore (il modello) recitare una scena. Se l'attore inizia a improvvisare e a dire cose che non sono nel copione (l'immagine), il regista gli dà un piccolo colpetto sulla spalla per ricordargli di attenersi alla realtà, senza però fermare la recita.

Il risultato? Un assistente che descrive le foto in modo molto più onesto, senza inventare gatti, ombrelli o arance che non esistono, mantenendo però la sua capacità di essere utile e veloce.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Allucinazioni nelle LVLM

I Large Vision-Language Models (LVLM) hanno ottenuto risultati eccezionali in compiti multimodali, ma soffrono di un problema critico noto come allucinazione: la generazione di descrizioni o risposte che non sono fedeli all'input visivo (es. descrivere oggetti, attributi o scene che non sono presenti nell'immagine).
Sebbene esistano metodi per mitigare le allucinazioni, la maggior parte si concentra su quelle indotte dal linguaggio (text-induced) o richiede un addestramento costoso e modifiche architetturali. Le allucinazioni indotte dalla visione (vision-induced), ovvero errori derivanti da una cattiva integrazione o comprensione del modulo visivo, rimangono un'area sottoutilizzata e difficile da correggere senza ri-addestrare il modello.

2. Metodologia: CIPHER

Gli autori propongono CIPHER (Counterfactual Image Perturbations for Hallucination Extraction and Removal), un metodo senza addestramento (training-free) che opera esclusivamente durante l'inferenza (test-time). L'approccio si basa sull'idea che le allucinazioni visive seguano direzioni specifiche nello spazio delle caratteristiche (feature space) del modello, che possono essere identificate e rimosse proiettando gli stati nascosti su un sottospazio ortogonale.

Il metodo si articola in due fasi:

Fase Offline: Costruzione del Dataset e Identificazione del Sottospazio

Generazione di Immagini Controfattuali (OHC-25K):
- Partendo da un subset di coppie immagine-caption (da MSCOCO), il sistema utilizza un modello LLM (GPT-3.5) per perturbare il caption originale, inserendo oggetti plausibili ma non presenti nell'immagine (es. aggiungere un grappolo d'uva in una scena di verdure).
- Viene quindi utilizzato un modello di diffusione (Stable Diffusion) per generare un'immagine "allucinata" ( $\tilde{I}$ ) basata su questo caption modificato, mantenendo la struttura globale dell'immagine originale ma alterando semanticamente il contenuto visivo per includere gli oggetti inventati.
- Questo processo crea un dataset di 25.000 campioni (OHC-25K) dove l'immagine $\tilde{I}$ contraddice il caption originale $C$ (che descrive l'immagine pulita $I$ ).
Estrazione della Direzione di Allucinazione:
- Sia l'immagine originale $(I, C)$ che quella controfattuale $(\tilde{I}, C)$ vengono elaborate dall'LVLM (congelato).
- Si calcola la differenza tra gli stati nascosti (hidden states) ottenuti dalle due immagini: $\delta = \tilde{h} - h$ . Questa differenza rappresenta la direzione nello spazio delle feature associata all'allucinazione visiva.
- Applicando la Scomposizione in Valori Singolari (SVD) alla matrice di queste differenze, si identifica un sottospazio a rango ridotto che cattura le direzioni dominanti delle allucinazioni visive. I vettori singolari corrispondenti formano una "banca di basi di allucinazione".

Fase di Inferenza: Nullificazione

Durante la generazione del testo (inference):

Per ogni passo di decodifica e per gli strati selezionati dell'LVLM, lo stato nascosto corrente ( $h_{test}$ ) viene proiettato sul complemento ortogonale del sottospazio di allucinazione identificato in fase offline.
Matematicamente, lo stato pulito è calcolato come: $h_{clean} = P \cdot h_{test}$ , dove $P$ è la matrice di proiezione che rimuove le componenti allineate con le direzioni di allucinazione.
Questo processo avviene senza modificare i pesi del modello e senza richiedere passaggi aggiuntivi di decodifica complessi.

3. Contributi Chiave

CIPHER: Un metodo innovativo per la soppressione delle allucinazioni che agisce specificamente sulle allucinazioni di natura visiva, a differenza dei metodi precedenti focalizzati sul testo.
Dataset OHC-25K: La creazione di un dataset controfattuale su larga scala generato tramite diffusione, progettato per isolare semanticamente le allucinazioni visive.
Identificazione del Sottospazio: La dimostrazione che le allucinazioni visive occupano un sottospazio strutturato e a basso rango nello spazio delle feature, identificabile tramite perturbazioni guidate dalla diffusione.
Efficienza: Una soluzione a costo computazionale trascurabile durante l'inferenza (un singolo passaggio in avanti) che non richiede ri-addestramento.

4. Risultati Sperimentali

Il metodo è stato valutato su tre modelli LVLM principali (LLaVA-1.5, MiniGPT-4, mPLUG-Owl2) e su diversi benchmark:

CHAIR (Object Hallucination): CIPHER ha ottenuto i tassi di allucinazione più bassi tra tutti i metodi confrontati (inclusi DoLa, OPERA, VCD, Nullu). Ad esempio, su LLaVA-1.5, ha ridotto il punteggio CHAIRS dal 20.40% (baseline) al 13.05%, superando il metodo precedente migliore (Nullu) del 2.15%.
OPOPE (Offline POPE): Ha mostrato il miglior compromesso tra accuratezza, precisione e F-score, dimostrando di ridurre le allucinazioni mantenendo la qualità delle risposte.
MMHal-Bench: Ha migliorato le prestazioni in tutte le 8 categorie di allucinazione (attributi, relazioni, conteggio, ecc.), con guadagni significativi nelle categorie "Attribute" e "Environment".
LLaVA-Bench: Le valutazioni qualitative e quantitative (tramite GPT-4V) hanno confermato che CIPHER migliora sia l'accuratezza che il dettaglio delle descrizioni, eliminando oggetti fantasma (es. "taxis parcheggiati" o "piante in vaso" inesistenti) senza appannare la fluidità del testo (punteggi BLEU stabili o migliorati).
Efficienza: A differenza di metodi che richiedono più passaggi in avanti (come OPERA o HALC), CIPHER mantiene la stessa velocità di throughput del decoding greedy (0.70 items/s), rendendolo pratico per applicazioni reali.

5. Significato e Impatto

Il lavoro di CIPHER è significativo perché:

Sposta il focus: Dimostra che le allucinazioni visive hanno una firma strutturale distinta nello spazio delle feature, separabile da quelle testuali.
Efficienza operativa: Offre una soluzione "plug-and-play" che non richiede costi di addestramento o modifiche architetturali, rendendola applicabile a qualsiasi LVLM esistente.
Robustezza: Le analisi di ablation study mostrano che il metodo è robusto al rumore visivo e che l'uso di perturbazioni visive (tramite diffusione) è più efficace nel catturare le direzioni di allucinazione rispetto alle semplici perturbazioni testuali.

In sintesi, CIPHER rappresenta un avanzamento fondamentale nella ricerca sulla fedeltà (faithfulness) degli LVLM, fornendo uno strumento efficace per "pulire" le rappresentazioni interne del modello dalle distorsioni visive durante l'inferenza.