NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente molto intelligente, un misto tra un fotografo esperto e un narratore di storie. Questo assistente è un Modello Linguistico Visivo (LVLM). La sua magia sta nel guardare una foto e raccontarti cosa c'è dentro.

Il problema? A volte, questo assistente è un po' troppo "fantasioso". Guarda una foto di un gatto su un divano e, invece di dirti solo "gatto" e "divano", inizia a inventarsi cose che non ci sono, come "un cane che dorme" o "un vaso di fiori". Questo fenomeno si chiama allucinazione degli oggetti.

Gli scienziati si sono chiesti: "Ma chi è il colpevole? È l'occhio che non vede bene, o è la bocca che parla troppo?"

La Scoperta: L'occhio vede, la bocca "sogna"

Gli autori di questo studio (NoLan) hanno fatto un esperimento curioso. Hanno scoperto che l'"occhio" del modello (il codificatore visivo) funziona benissimo: se c'è un orso nella foto, lo vede davvero. Il problema non è la vista!

Il colpevole è la "bocca" (il decodificatore linguistico). È come se l'assistente, quando parla, si basasse troppo su ciò che crede di sapere dal suo addestramento, piuttosto che su ciò che vede realmente.

L'analogia: Immagina di essere a una festa e di vedere un amico. Se il tuo cervello è pieno di ricordi su di lui, potresti dire: "Ecco, sta mangiando un panino!" anche se lui sta solo bevendo un caffè. Il tuo cervello (il linguaggio) ha sovrascritto la realtà (la vista) con le sue aspettative.

La Soluzione: NoLan (Nessuna Allucinazione Linguistica)

Per risolvere il problema, gli autori hanno creato un metodo semplice e gratuito chiamato NoLan. Non serve riaddestrare il modello (che sarebbe costoso e lento), basta cambiare il modo in cui risponde.

Ecco come funziona, con una metafora culinaria:

Il Pranzo (Input Multimodale): L'assistente guarda la foto e la domanda. Produce una risposta basata su entrambi.
Il Sogno (Input Solo Testo): L'assistente ignora la foto e risponde solo alla domanda basandosi sui suoi ricordi. Qui è dove "sogna" cose che non ci sono.
Il Controllo (NoLan): NoLan mette a confronto le due risposte.
- Se la risposta basata sulla foto è molto diversa da quella basata solo sui ricordi, significa che l'assistente sta guardando davvero la foto. Va bene, lascialo parlare.
- Se la risposta basata sulla foto è quasi identica a quella basata solo sui ricordi, significa che l'assistente sta ignorando la foto e sta "sognando" a occhi aperti. Stop! NoLan riduce la fiducia in quelle parole inventate.

È come avere un regista che guarda due attori recitare la stessa scena: uno recita guardando il set reale, l'altro recita a memoria. Se le loro performance sono troppo simili, il regista sa che l'attore che dovrebbe guardare il set si sta affidando troppo alla memoria e lo corregge, spingendolo a guardare di nuovo la realtà.

Perché è fantastico?

È semplice: Non serve un supercomputer per riaddestrare nulla. È come mettere un filtro su una foto esistente.
Funziona ovunque: È stato testato su diversi modelli (come LLaVA e Qwen) e su molti tipi di domande, riducendo drasticamente le bugie sugli oggetti.
Mantiene la qualità: L'assistente continua a essere intelligente e a raccontare storie belle, ma smette di inventare oggetti che non esistono.

In sintesi, NoLan è come dare un "risveglio" all'assistente AI ogni volta che sta per raccontare una bugia basata sui suoi pregiudizi, costringendolo a guardare la foto e dire la verità su ciò che vede davvero.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Allucinazioni di Oggetti negli LVLM

I Modelli Vision-Language di Grande Dimensione (LVLM) hanno rivoluzionato l'interazione tra visione artificiale e linguaggio naturale. Tuttavia, soffrono di un problema critico noto come allucinazione di oggetti (object hallucination): il modello genera descrizioni testuali che includono oggetti che non sono presenti nell'immagine di input.
Questo fenomeno comporta rischi significativi in ambiti ad alto rischio come la robotica, i sistemi autonomi e la sanità, portando a disinformazione e interpretazioni errate. Sebbene siano state proposte diverse strategie per mitigare il problema (come l'addestramento su dataset specifici o l'uso di strumenti esterni), queste soluzioni sono spesso costose in termini computazionali, richiedono ri-addestramento o dipendono da modelli esterni complessi.

2. Analisi Preliminare: La Causa Radice

Prima di proporre una soluzione, gli autori hanno condotto un'analisi sistematica per determinare quale componente dell'architettura LVLM contribuisca maggiormente alle allucinazioni:

L'Encoder Visivo: Gli esperimenti hanno dimostrato che l'encoder visivo (es. CLIP) è in grado di rilevare con alta precisione la presenza o l'assenza di oggetti, anche nei casi in cui il modello finale commette errori. Quindi, il problema non risiede nella percezione visiva.
Il Decoder Linguistico: L'analisi ha rivelato che le allucinazioni derivano principalmente dai priors linguistici (priori del linguaggio) incorporati nel Large Language Model (LLM) sottostante. Quando il modello genera testo, tende a favorire token basati su statistiche linguistiche addestrate su grandi corpus testuali, ignorando o sovrascrivendo i segnali visivi quando questi sono ambigui o quando la "safety net" linguistica è troppo forte.
Evidenza Empirica: Misurando la divergenza tra le distribuzioni di probabilità generate da input multimodali (immagine + testo) e input unimodali (solo testo), gli autori hanno osservato che nei casi di allucinazione, le due distribuzioni sono molto simili (bassa divergenza KL). Questo indica che il modello sta ignorando l'immagine e affidandosi quasi esclusivamente al priore linguistico.

3. Metodologia: NoLan (No-Language-Hallucination Decoding)

Sulla base di queste scoperte, gli autori propongono NoLan, un framework semplice, efficace e senza addestramento (training-free) per mitigare le allucinazioni.

Principio di Funzionamento

NoLan opera durante la fase di inferenza (decoding) modificando la distribuzione di probabilità degli output. L'idea centrale è sopprimere dinamicamente i priori linguistici confrontando due percorsi di inferenza:

Logit Multimodali ( $l_m$ ): Ottenuti fornendo all'LVLM sia l'immagine ( $v$ ) che il prompt testuale ( $x$ ).
Logit Unimodali ( $l_u$ ): Ottenuti fornendo al decoder linguistico (lo stesso LLM usato nell'LVLM) solo il prompt testuale ( $x$ ), senza l'immagine.

La differenza tra queste due distribuzioni ( $l_m - l_u$ ) rappresenta l'influenza specifica dell'immagine. Se la differenza è piccola, significa che il modello sta ignorando l'immagine (alto rischio di allucinazione).

Le Due Varianti

Il paper introduce due varianti del metodo:

NoLan-Base:
Utilizza un fattore di modulazione $\alpha$ fisso (default = 1). La distribuzione finale $p_{nolan}$ è calcolata come:
$p_{nolan} = \text{softmax}(l_m + \alpha(l_m - l_u))$
In pratica, questo raddoppia l'influenza del segnale visivo rispetto al priore linguistico, rafforzando la coerenza con l'immagine.
NoLan-Plus:
Introduce un meccanismo di adattamento dinamico. Invece di usare un $\alpha$ fisso, calcola un valore di $\alpha$ basato sulla divergenza simmetrica KL tra $l_m$ e $l_u$ .
- Se le distribuzioni sono molto simili (bassa divergenza, alto rischio di allucinazione), il sistema aumenta la soppressione del priore linguistico.
- Se le distribuzioni sono diverse (alta divergenza, il modello sta già guardando l'immagine), la modulazione è ridotta.
  La formula utilizza una funzione $\tanh$ per mappare la divergenza KL in un fattore di peso adattivo, permettendo una soppressione più fine e contestuale di ogni token.

4. Risultati Sperimentali

Gli autori hanno valutato NoLan su diversi modelli LVLM (LLaVA-1.5, InstructBLIP, Qwen-VL) e benchmark standardizzati.

Benchmark POPE (Polling-based Object Probing Evaluation):
- NoLan ha ottenuto miglioramenti significativi rispetto al decoding regolare e ad altri metodi senza addestramento come VCD (Visual Contrastive Decoding).
- Su LLaVA-1.5 7B, NoLan-Plus ha migliorato l'accuratezza fino a +6.45 punti e il punteggio F1 fino a +7.21 rispetto al baseline.
- Su Qwen-VL 7B, i miglioramenti sono stati ancora più marcati, con un aumento di accuratezza fino a +7.21.
- NoLan supera i metodi basati su RLHF o fine-tuning senza richiedere risorse computazionali aggiuntive per l'addestramento.
Altri Benchmark:
- MME: Miglioramenti consistenti sia nelle allucinazioni a livello di oggetto (esistenza, conteggio) che a livello di attributo (posizione, colore).
- LLaVA-Bench: Studi di caso mostrano che NoLan riduce efficacemente oggetti fantasma (es. "valigia" o "camion" quando l'oggetto reale è un "taxi") mantenendo la ricchezza e la coerenza del testo generato.
- MM-Vet e HallusionBench: Il metodo dimostra robustezza anche in compiti di ragionamento complesso e open-ended, confermando che la soppressione dei priori linguistici non danneggia la capacità generativa ma la rende più ancorata alla realtà visiva.
Efficienza:
NoLan è computazionalmente efficiente. Richiede solo due forward pass (uno multimodale e uno unimodale) e calcoli leggeri per la divergenza KL, risultando più veloce e meno dispendioso in termini di memoria rispetto a metodi come VCD o VDD che richiedono elaborazioni post-hoc complesse o input distorti.

5. Contributi Chiave e Significato

I principali contributi del lavoro sono:

Analisi Causale: Dimostrazione empirica che le allucinazioni di oggetti negli LVLM sono guidate principalmente dai priori del decoder linguistico e non da un fallimento dell'encoder visivo.
Framework NoLan: Introduzione di un metodo plug-and-play, senza addestramento, che sopprime dinamicamente i priori linguistici sfruttando la differenza tra input multimodali e unimodali.
Prestazioni Superiori: Validazione estesa che NoLan supera lo stato dell'arte (SOTA) in termini di riduzione delle allucinazioni su una vasta gamma di architetture LVLM, migliorando l'accuratezza e l'affidabilità senza costi di addestramento.
Generalizzabilità: Il metodo funziona efficacemente su modelli di diverse dimensioni (da 2B a 13B parametri) e generazioni (LLaVA, Qwen, InstructBLIP), rendendolo una soluzione scalabile e pratica per migliorare l'ancoraggio visivo (visual grounding) nell'IA multimodale.

In sintesi, NoLan offre una soluzione elegante ed efficiente al problema delle allucinazioni, spostando il focus dal miglioramento della percezione visiva alla correzione della generazione linguistica, garantendo che le risposte dei modelli siano fedeli al contenuto visivo reale.

NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

La Scoperta: L'occhio vede, la bocca "sogna"

La Soluzione: NoLan (Nessuna Allucinazione Linguistica)

Perché è fantastico?

1. Il Problema: Allucinazioni di Oggetti negli LVLM

2. Analisi Preliminare: La Causa Radice

3. Metodologia: NoLan (No-Language-Hallucination Decoding)

Principio di Funzionamento

Le Due Varianti

4. Risultati Sperimentali

5. Contributi Chiave e Significato

Articoli simili

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora