NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors

Il paper presenta NoLan, un framework senza addestramento che mitiga le allucinazioni di oggetti nei modelli visione-linguaggio su larga scala sopprimendo dinamicamente i prior linguistici del decoder, che l'analisi ha identificato come la causa principale di tale fenomeno.

Lingfeng Ren, Weihao Yu, Runpeng Yu, Xinchao Wang

Pubblicato 2026-02-26
📖 3 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente molto intelligente, un misto tra un fotografo esperto e un narratore di storie. Questo assistente è un Modello Linguistico Visivo (LVLM). La sua magia sta nel guardare una foto e raccontarti cosa c'è dentro.

Il problema? A volte, questo assistente è un po' troppo "fantasioso". Guarda una foto di un gatto su un divano e, invece di dirti solo "gatto" e "divano", inizia a inventarsi cose che non ci sono, come "un cane che dorme" o "un vaso di fiori". Questo fenomeno si chiama allucinazione degli oggetti.

Gli scienziati si sono chiesti: "Ma chi è il colpevole? È l'occhio che non vede bene, o è la bocca che parla troppo?"

La Scoperta: L'occhio vede, la bocca "sogna"

Gli autori di questo studio (NoLan) hanno fatto un esperimento curioso. Hanno scoperto che l'"occhio" del modello (il codificatore visivo) funziona benissimo: se c'è un orso nella foto, lo vede davvero. Il problema non è la vista!

Il colpevole è la "bocca" (il decodificatore linguistico). È come se l'assistente, quando parla, si basasse troppo su ciò che crede di sapere dal suo addestramento, piuttosto che su ciò che vede realmente.

  • L'analogia: Immagina di essere a una festa e di vedere un amico. Se il tuo cervello è pieno di ricordi su di lui, potresti dire: "Ecco, sta mangiando un panino!" anche se lui sta solo bevendo un caffè. Il tuo cervello (il linguaggio) ha sovrascritto la realtà (la vista) con le sue aspettative.

La Soluzione: NoLan (Nessuna Allucinazione Linguistica)

Per risolvere il problema, gli autori hanno creato un metodo semplice e gratuito chiamato NoLan. Non serve riaddestrare il modello (che sarebbe costoso e lento), basta cambiare il modo in cui risponde.

Ecco come funziona, con una metafora culinaria:

  1. Il Pranzo (Input Multimodale): L'assistente guarda la foto e la domanda. Produce una risposta basata su entrambi.
  2. Il Sogno (Input Solo Testo): L'assistente ignora la foto e risponde solo alla domanda basandosi sui suoi ricordi. Qui è dove "sogna" cose che non ci sono.
  3. Il Controllo (NoLan): NoLan mette a confronto le due risposte.
    • Se la risposta basata sulla foto è molto diversa da quella basata solo sui ricordi, significa che l'assistente sta guardando davvero la foto. Va bene, lascialo parlare.
    • Se la risposta basata sulla foto è quasi identica a quella basata solo sui ricordi, significa che l'assistente sta ignorando la foto e sta "sognando" a occhi aperti. Stop! NoLan riduce la fiducia in quelle parole inventate.

È come avere un regista che guarda due attori recitare la stessa scena: uno recita guardando il set reale, l'altro recita a memoria. Se le loro performance sono troppo simili, il regista sa che l'attore che dovrebbe guardare il set si sta affidando troppo alla memoria e lo corregge, spingendolo a guardare di nuovo la realtà.

Perché è fantastico?

  • È semplice: Non serve un supercomputer per riaddestrare nulla. È come mettere un filtro su una foto esistente.
  • Funziona ovunque: È stato testato su diversi modelli (come LLaVA e Qwen) e su molti tipi di domande, riducendo drasticamente le bugie sugli oggetti.
  • Mantiene la qualità: L'assistente continua a essere intelligente e a raccontare storie belle, ma smette di inventare oggetti che non esistono.

In sintesi, NoLan è come dare un "risveglio" all'assistente AI ogni volta che sta per raccontare una bugia basata sui suoi pregiudizi, costringendolo a guardare la foto e dire la verità su ciò che vede davvero.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →