Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Large Language Model (LLM) zoals een enorme, superintelligente bibliothecaris die alles uit zijn hoofd kent. De grote vraag is: weet deze bibliothecaris ook wanneer hij iets verzonnen heeft?

Deze paper, getiteld "Do LLMs Really Know What They Don't Know?", komt met een verrassend antwoord: Nee, niet echt. En dat is een groot probleem voor het detecteren van "hallucinaties" (waar de AI dingen verzint).

Hier is de uitleg in simpele taal, met een paar creatieve metaforen.

1. Het Grote Misverstand

Tot nu toe dachten onderzoekers dat ze een "leugendetector" konden bouwen voor AI. Ze dachten: "Als de AI een feit verzint, ziet dat er van binnen anders uit dan wanneer hij de waarheid spreekt. We kunnen die interne signalen gebruiken om de leugens te vangen."

De auteurs van dit paper zeggen echter: "Nee, dat klopt niet zo."

Ze ontdekken dat de interne "gedachten" van de AI (de wiskundige signalen in de computer) niet kijken naar of iets waar is. Ze kijken alleen naar hoe de AI aan het antwoord komt.

2. De Twee Manieren om te "Verzinnen"

De auteurs verdelen de hallucinaties in twee soorten, en dat is waar het interessant wordt. Stel je voor dat je de AI vraagt: "Waar is Barack Obama geboren?"

Type A: De "Verzonnen Associatie" (Associated Hallucination)

Stel, de AI weet niet precies waar Obama geboren is, maar hij weet wel dat Obama vaak in de krant staat in combinatie met de stad Chicago.

De situatie: De AI denkt: "Ah, Obama + Chicago. Dat klinkt logisch!" en zegt: "Hij is geboren in Chicago." (Dit is fout, hij is geboren in Honolulu).
De metafoor: Dit is alsof de bibliothecaris een boek pakt dat hij vaak heeft gelezen. Hij weet dat de woorden "Obama" en "Chicago" vaak samen voorkomen. Hij gebruikt zijn kennis (de statistische link tussen de woorden) om het antwoord te geven.
Het probleem: Omdat hij zijn "kennis" gebruikt, ziet zijn interne brein er exact hetzelfde uit als wanneer hij het juiste antwoord geeft. Voor de computer is het alsof hij een waarheid spreekt. De "leugendetector" ziet hier niets.

Type B: De "Losgekoppelde Verzonnenheid" (Unassociated Hallucination)

Stel, je vraagt: "Waar is Brenda Johnston geboren?" (Iemand die niemand kent).

De situatie: De AI heeft geen enkele link in zijn geheugen voor "Brenda Johnston". Hij raadt maar wat: "Portland".
De metafoor: Dit is alsof de bibliothecaris helemaal geen boek over Brenda Johnston heeft. Hij kijkt naar de lucht, haalt zijn schouders op en roept een willekeurige stad. Hij gebruikt geen bestaande kennis of patronen.
Het resultaat: Omdat hij hier geen "kennis" voor gebruikt, ziet zijn interne brein er heel anders uit. De "leugendetector" kan dit heel goed zien en zegt: "Ah, dit is raar, dit komt niet uit het geheugen!"

3. De Belangrijkste Ontdekking

De paper laat zien dat de meeste detectiemethoden (die proberen te zien of de AI liegt) alleen werken voor Type B (de losgekoppelde verzonnenheden).

Ze falen volledig bij Type A (de verzonnen associaties).

Waarom? Omdat de AI bij Type A net zo zeker is van zijn zaak als bij een waarheid. Hij gebruikt dezelfde "statistische kortsluiting" (de link tussen Obama en Chicago) als hij dat zou doen voor een echt feit.
De conclusie: De AI weet niet dat hij liegt. Hij denkt dat hij een sterk patroon volgt. Voor de computer is "Obama in Chicago" net zo "echt" als "Obama in Honolulu", omdat beide gebaseerd zijn op sterke patronen in zijn training.

4. Wat betekent dit voor de toekomst?

De auteurs geven drie belangrijke waarschuwingen:

We moeten stoppen met vertrouwen op interne signalen: Je kunt niet zomaar kijken naar de "gedachten" van de AI om te zien of hij liegt. Als hij een verzonnen verhaal vertelt dat logisch klinkt op basis van patronen, ziet het er van binnen uit als een waarheid.
De "Weigeren"-strategie werkt niet goed: Er is een techniek om AI's te trainen om te zeggen: "Ik weet het niet", als ze twijfelen. Dit werkt goed voor Type B (als ze niets weten), maar faalt bij Type A. De AI zal blijven doorgaan met het verzinnen van Chicago, omdat hij denkt dat hij het wel weet.
We hebben externe checkers nodig: Omdat de AI zelf niet weet of hij liegt, moeten we externe systemen gebruiken (zoals een zoekmachine of een feitencheck-module) om te controleren of wat de AI zegt ook echt waar is.

Samenvattend in één zin:

De AI is niet slim genoeg om te weten dat hij liegt; hij is gewoon heel goed in het herhalen van patronen die hij heeft geleerd, zelfs als die patronen leiden tot een leugen. En omdat die leugen op een patroon is gebaseerd, ziet hij er van binnen uit als een waarheid.

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

1. Het Grote Misverstand

2. De Twee Manieren om te "Verzinnen"

Type A: De "Verzonnen Associatie" (Associated Hallucination)

Type B: De "Losgekoppelde Verzonnenheid" (Unassociated Hallucination)

3. De Belangrijkste Ontdekking

4. Wat betekent dit voor de toekomst?

Samenvattend in één zin:

Probleemstelling

Methodologie

1. Taxonomie en Dataset Constructie

2. Mechanistische Analyse

3. Experimenten

Belangrijkste Resultaten

1. Interne Staten Reflecteren Kennis-Opvraging, Niet Waarheid

2. Detectiemethoden Falen bij Geassocieerde Hallucinaties

3. Beperkingen van Refusal Tuning

Bijdragen en Significantie

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

1. Het Grote Misverstand

2. De Twee Manieren om te "Verzinnen"

Type A: De "Verzonnen Associatie" (Associated Hallucination)

Type B: De "Losgekoppelde Verzonnenheid" (Unassociated Hallucination)

3. De Belangrijkste Ontdekking

4. Wat betekent dit voor de toekomst?

Samenvattend in één zin:

Probleemstelling

Methodologie

1. Taxonomie en Dataset Constructie

2. Mechanistische Analyse

3. Experimenten

Belangrijkste Resultaten

1. Interne Staten Reflecteren Kennis-Opvraging, Niet Waarheid

2. Detectiemethoden Falen bij Geassocieerde Hallucinaties

3. Beperkingen van Refusal Tuning

Bijdragen en Significantie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models