Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Questo studio dimostra che le allucinazioni nei modelli visione-linguaggio derivano da un processo di "sovra-analisi" in cui ipotesi errate si propagano attraverso i livelli del decoder, e propone un nuovo indicatore, l'Overthinking Score, che analizza tale dinamica interna per rilevare le allucinazioni con maggiore precisione rispetto ai metodi basati sull'output finale.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan

Pubblicato 2026-03-10
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🎭 Il Titolo: "Pensare Troppo Fa Allucinare"

Immagina che un'intelligenza artificiale (un modello Vision-Language) sia come un artista molto talentuoso ma un po' ansioso. Gli mostri una foto e gli chiedi: "Cosa vedi?".

Spesso, questo artista non si limita a descrivere la foto. Invece, inizia a immaginare cose che dovrebbero esserci, basandosi su ciò che sa del mondo, anche se non sono nella foto. Questo si chiama "allucinazione". Se nella foto c'è un tavolo da cucina, l'artista potrebbe dire: "Vedo anche un tostapane!", anche se il tostapane non c'è. Perché? Perché nella sua testa, "tavolo da cucina" e "tostapane" vanno sempre insieme.

🔍 Il Problema: Come abbiamo cercato di scoprirlo finora?

Fino a ieri, i ricercatori cercavano di capire se l'artista stava mentendo guardando solo il risultato finale (la frase scritta) o guardando quanto era sicuro di sé.

  • Il vecchio metodo: "Se l'artista è incerto (ha un'alta 'entropia'), allora sta allucinando. Se è sicuro, sta dicendo la verità."
  • La scoperta: I ricercatori hanno scoperto che questo non funziona! L'artista può essere super sicuro di una bugia. Se gli mostri una cucina, lui è certo che ci sia un tostapane, anche se non c'è. La sua sicurezza è un'illusione.

🕵️‍♂️ La Nuova Scoperta: Il "Pensiero Eccessivo" (Overthinking)

I ricercatori hanno guardato dentro la "testa" dell'artista mentre lavorava, strato per strato (come se guardassimo i suoi appunti mentre pensa). Hanno scoperto un fenomeno nuovo: l'Overthinking (pensare troppo).

Ecco l'analogia perfetta:
Immagina di dover scegliere cosa ordinare al ristorante.

  1. Ragionamento Sano: Guardi il menu, vedi un'insalata, pensi "Sì, insalata", e la ordini. (Pensiero stabile).
  2. Overthinking (Allucinazione): Guardi il menu.
    • Strato 1: "Forse una pizza?"
    • Strato 2: "No, ho fame di pasta."
    • Strato 3: "Ma forse un panino?"
    • Strato 4: "Aspetta, c'è anche la pizza..."
    • Strato 5: "Ok, ordino la pizza!" (Ma nella foto non c'era una pizzeria, c'era solo un bar!).

L'artista AI, quando allucina, rimbalza tra troppe idee diverse prima di decidere. Questo "rimbalzo" crea confusione. Alla fine, si aggrappa a un'idea sbagliata (un "confonditore") che sembra logica nel contesto, ma non è vera.

📏 La Soluzione: Il "Punteggio di Pensiero Eccessivo" (Overthinking Score)

Per risolvere il problema, i ricercatori hanno inventato un nuovo metro di misura, chiamato Overthinking Score.

Immagina di avere un termometro della confusione mentale:

  • Se l'AI passa attraverso molti strati di pensiero, saltando da un oggetto all'altro (es. da "lavabo" a "sapone" a "piatto") prima di decidere, il termometro sale.
  • Se il termometro è alto, significa che l'AI sta pensando troppo e sta diventando confusa. È molto probabile che stia per dire una bugia.
  • Se il termometro è basso, l'AI ha pensato in modo lineare e stabile: probabilmente sta dicendo la verità.

🚀 Perché è importante?

  1. Non si fida dell'ultimo pensiero: I vecchi metodi guardavano solo la frase finale. Questo nuovo metodo guarda tutto il viaggio mentale dell'AI.
  2. Funziona anche quando l'AI è sicura: Anche se l'AI dice "Sono al 100% sicuro che ci sia un tostapane!", il nostro termometro vede che prima di dirlo ha saltellato tra 5 idee diverse. Quindi, il termometro ci avvisa: "Attenzione! Sta allucinando!".
  3. Risultati migliori: Usando questo metodo, i ricercatori sono riusciti a individuare le bugie dell'AI molto meglio di prima (con un'accuratezza del 78,9% su un dataset famoso).

In sintesi

L'AI allucina non perché è "stupida", ma perché pensa troppo e si perde in troppe possibilità prima di decidere. Invece di guardare solo la risposta finale, dobbiamo guardare come pensa. Se la sua mente vaga troppo tra le opzioni, è il momento di dire: "Ehi, fermati! Stai inventando cose che non esistono!".

È come se, invece di giudicare un amico solo dalla sua risposta finale, ascoltassimo il suo monologo interiore: se sente che sta cambiando idea troppe volte, capiamo che sta cercando di indovinare e non sta dicendo la verità.