Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

🧠 Waarom "Overdenken" AI's Dingen Verzinnen?

Stel je voor dat je een kunstenaar hebt die een foto beschrijft. Soms zegt deze kunstenaar: "Ik zie een rode auto." Maar op de foto staat geen auto. De kunstenaar heeft gehallucineerd.

Tot nu toe dachten onderzoekers dat je dit kon opsporen door te kijken naar het eindresultaat (de laatste zin die de kunstenaar schreef) of naar hoe zeker de kunstenaar leek. Maar dit nieuwe onderzoek, getiteld "Overthinking Causes Hallucination", laat zien dat die aanpak vaak faalt.

De onderzoekers ontdekten iets interessants: De kunstenaar "overdenkt" het probleem te veel voordat hij de fout maakt.

1. Het Probleem: De "Gevarenzone" in het Denken

Stel je voor dat de AI een foto van een keuken ziet.

De normale route: De AI ziet een spoelbak en een zeep. Ze denkt: "Ah, een spoelbak." En klaar.
De "Overdenkende" route (de fout): De AI ziet de spoelbak en de zeep. Maar dan begint ze te twijfelen. Ze denkt: "Is het een spoelbak? Of een emmer? Nee, wacht, zeep hoort bij een afwasbak... misschien is het een schotel?"

Zelfs als er geen schotel op de foto staat, heeft de AI door de associatie met "spoelbak" en "zeep" de gedachte "schotel" vastgehouden. Ze heeft te veel opties overwogen en is vastgelopen in een denkpatroon dat niet klopt. Dit noemen de auteurs "Confounder Propagation" (het verspreiden van verwarrende ideeën).

2. Waarom de oude methoden faalden

Vroeger keken onderzoekers naar twee dingen:

Aandacht: Kijkt de AI echt naar de foto? (Zoals een detective die naar de bewijsstukken kijkt).
- Het probleem: Soms kijkt de AI heel intens naar de foto, maar ziet ze toch iets dat er niet is, omdat de context (zoals "keuken") haar zo sterk beïnvloedt dat ze "schotel" ziet waar geen schotel is.
Zekerheid: Is de AI twijfelend?
- Het probleem: De AI kan heel zeker lijken ("Ik zie een schotel!"), terwijl ze eigenlijk op een verkeerd spoor zit. Haar twijfel zat in de tussentijdse stappen, niet in het eindantwoord.

3. De Oplossing: De "Overdenk-Score" (Overthinking Score)

De onderzoekers hebben een nieuwe methode bedacht die niet naar het eindantwoord kijkt, maar naar het hele denkproces.

Ze gebruiken een techniek (LogitLens) die het mogelijk maakt om te "peilen" wat de AI denkt op elke stap van haar berekening. Het is alsof je een film van het denken van de AI kunt bekijken, in plaats van alleen de laatste scène.

Ze hebben een maatstaf bedacht, de Overthinking Score, die twee dingen meet:

Hoe vaak wisselt de AI van gedachte? (Zegt ze eerst "stoel", dan "tafel", dan "bank" en uiteindelijk "schotel"?)
Hoe onzeker is ze onderweg? (Is ze aan het twijfelen tussen veel verschillende dingen?)

De metafoor:

Stabiel denken: De AI loopt een rechte lijn naar het antwoord. Ze ziet een kat, denkt "kat", en zegt "kat". Geen twijfel, geen omwegen.
Overdenken: De AI loopt een wirwar van paden. Ze ziet een wasbak, denkt "wasbak", dan "zeep", dan "douchegordijn", dan "schotel". Ze raakt in de war en kiest uiteindelijk voor "schotel", terwijl er geen schotel is.

4. Waarom werkt dit beter?

Omdat de fout vaak al in die wirwar van gedachten zit. Als de AI te veel opties overweegt (te veel "schotel", "kom", "bak"), is de kans groot dat ze een fout maakt.

De onderzoekers hebben bewezen dat als je deze "Overdenk-Score" meet, je veel beter kunt voorspellen of de AI gaat liegen (hallucineren) dan met de oude methoden.

Op de MSCOCO-dataset (een grote verzameling foto's) scoorden ze 78,9% correct.
Dit is een enorme verbetering ten opzichte van eerdere methoden die vaak faalden bij complexe situaties.

Samenvatting in één zin

AI's verzinnen dingen niet omdat ze dom zijn, maar omdat ze te veel nadenken en vastlopen in een web van verkeerde associaties; door dit "overdenken" te meten, kunnen we de leugens van de AI veel beter opsporen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem: Hallucinaties in Vision Language Models (VLMs)

Vision Language Models (VLMs) hebben de neiging om objecten te beschrijven die niet in de invoerafbeelding aanwezig zijn (hallucinaties). Bestaande detectiemethoden hebben twee belangrijke beperkingen:

Aandacht-gebaseerde methoden: Deze gaan ervan uit dat geïllustreerde objecten een lage aandacht (attention) krijgen. Het paper weerlegt dit: bij sterke contextuele prioren (bijv. een keuken) kan een hallucinatie (zoals "schotel") juist een hoge aandacht krijgen omdat het semantisch past bij andere objecten (zoals "wastafel" en "zeep").
Entropie-gebaseerde methoden: Deze kijken naar de onzekerheid in de laatste decoder-laag. Het paper toont aan dat modellen vaak met hoge zekerheid (lage entropie) hallucineren, omdat de fout al in eerdere lagen is vastgelegd.

De kern van het probleem is dat hallucinaties vaak het resultaat zijn van een proces dat de auteurs "Confounder Propagation" noemen: plausible concepten (confounders) die in de tussentijdse lagen verschijnen, beïnvloeden de uiteindelijke voorspelling en leiden tot een foutieve, maar contextueel logische, hallucinatie.

2. Methodologie: Overthinking en Confounder Propagation

De auteurs introduceren een nieuwe kijk op het interne "denkproces" van het model door middel van een laag-voor-laag analyse (layer-wise analysis).

Kernconcepten:

Overthinking: Dit is het fenomeen waarbij het model over meerdere objecthypothese heen "twijfelt" of schakelt voordat het zich vastzet op een antwoord. In plaats van snel te convergeren naar het juiste object, exploreert het model te veel alternatieven.
Confounder Propagation: Tussentijdse lagen genereren objecten die semantisch gerelateerd zijn aan de scène maar niet aanwezig zijn (bijv. "wastafel" en "zeep" in een keuken). Deze "verwarrende" concepten verspreiden zich door de lagen en beïnvloeden de finale laag, waardoor het model een niet-bestaand object (bijv. "schotel") genereert.

De Overthinking Score (S-OT):
Om dit gedrag te kwantificeren, introduceren de auteurs de Overthinking Score. Deze score meet twee factoren over alle decoder-lagen heen:

Diversiteit van hypotheses: Het aantal unieke 'top-1' tokens dat het model genereert over de verschillende lagen.
Onzekerheid: De gemiddelde entropie (onzekerheid) van de token-verdelingen over de lagen.

De formule is als volgt:
$S_{OT} = \frac{|\{x_\ell | \ell \in [1, L]\}|}{L} \cdot \frac{\sum_{\ell=1}^{L} H_\ell}{L}$
Waarbij $x_\ell$ het top-1 token is en $H_\ell$ de entropie in laag $\ell$ . Een hoge score duidt op veel variatie in hypotheses en hoge onzekerheid, wat correleert met hallucinaties.

Detectie Pipeline:

Prefix Prompting: Het model krijgt een afbeelding en een gedeeltelijke prompt om het volgende woord te voorspellen.
LogitLens: Deze techniek wordt gebruikt om de verborgen representaties van elke decoder-laag te decoderen naar het vocabulaire, zodat men kan zien welke objecten het model in elke laag "denkt".
Feature Extractie: Naast de S-OT worden ook laag-specifieke entropie, beeld-attentie en tekst-attentie verzameld.
Classificatie: Een lichtgewicht classifier (Logistic Regression, Gradient Boosting of MLP) wordt getraind op deze feature vectors om te bepalen of een token een hallucinatie is.

3. Belangrijkste Bijdragen

Ontdekking van Confounder Propagation: Het paper identificeert en formaliseert dat hallucinaties vaak worden veroorzaakt door de accumulatie en verspreiding van verwarrende concepten in de tussentijdse lagen, een proces dat door bestaande methoden (die alleen naar de laatste laag kijken) wordt gemist.
De Overthinking Score: Een nieuwe metriek die de interne dynamiek van het model (twijfel en onzekerheid over lagen) kwantificeert en bewezen effectiever is dan bestaande signalen zoals aandacht of finale entropie.
Superieure Prestaties: De methode presteert consistent beter dan state-of-the-art baselines (zoals SVAR, MetaToken, HalLoc) op meerdere benchmarks.

4. Resultaten

De methode is geëvalueerd op drie populaire VLMs (LLaVA-1.5, Gemma-3, Qwen3-VL) op de MSCOCO en AMBER datasets.

MSCOCO: De methode bereikte een F1-score van 78,9% (met de GB-variant), wat een significante verbetering is ten opzichte van bestaande methoden (bijv. MetaToken GB: 72,51%).
AMBER (Out-of-Distribution): De generalisatie is sterk, met een F1-score van 71,58%, wat aantoont dat de methode robuust is voor onbekende data.
Analyse van Bestaande Methodes: Het paper toont aan dat methoden gebaseerd op aandacht (zoals SVAR) faalt bij sterke contextuele prioren, omdat hallucinaties dan even hoge aandacht krijgen als echte objecten. De Overthinking Score blijft hier effectief omdat deze de interne "twijfel" detecteert.
Ablatie Studies: Het verwijderen van de Overthinking Score uit de feature set leidt tot de grootste daling in prestaties, wat aangeeft dat dit de belangrijkste indicator is.

5. Betekenis en Conclusie

Dit onderzoek verschuift de focus van hallucinatiedetectie van het analyseren van het eindresultaat naar het analyseren van het denkproces van het model.

Inzicht: Het toont aan dat hallucinaties niet per se het gevolg zijn van onzekerheid in de laatste stap, maar van een "overthinking"-proces in de diepte van het netwerk waarbij confounders de voorspelling beïnvloeden.
Toekomst: De bevindingen bieden een nieuwe basis voor het ontwikkelen van mitigatiestrategieën die ingrijpen tijdens het generatieproces (bijv. door het "overthinking" te onderdrukken) in plaats van alleen na te denken over het eindresultaat.
Efficiëntie: De methode voegt slechts een beperkte rekentijd toe (ongeveer 36% extra inferentie-tijd ten opzichte van standaard greedy search) en vereist geen zware externe "judge"-modellen.

Kortom, het paper bewijst dat het traceren van de propagatie van verwarrende concepten door de lagen van een VLM de sleutel is tot het betrouwbaar detecteren van hallucinaties.

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

🧠 Waarom "Overdenken" AI's Dingen Verzinnen?

1. Het Probleem: De "Gevarenzone" in het Denken

2. Waarom de oude methoden faalden

3. De Oplossing: De "Overdenk-Score" (Overthinking Score)

4. Waarom werkt dit beter?

Samenvatting in één zin

1. Het Probleem: Hallucinaties in Vision Language Models (VLMs)

2. Methodologie: Overthinking en Confounder Propagation

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes