Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Each language version is independently generated for its own context, not a direct translation.

🧠 Waarom LLM's (zoals ChatGPT) zo zeker zijn van hun onzin

Stel je voor dat je een enorme bibliotheek hebt met alle feiten die ooit bestaan hebben. Maar je hebt slechts een kleine rugzak om de belangrijkste feiten in mee te nemen. Je wilt deze rugzak zo slim mogelijk vullen, zodat je bij een vraag snel het juiste antwoord kunt vinden.

Dit is precies het probleem waar dit nieuwe onderzoek over gaat. De auteurs tonen aan dat hallucineren (het met grote zekerheid een leugen vertellen) geen fout is in de software, maar een noodzakelijk gevolg van het proberen om te veel informatie in te weinig ruimte te proppen.

Hier is hoe het werkt, stap voor stap:

1. De "Naamlijst" van de Feiten

Stel je voor dat de wereld vol zit met mogelijke zinnen.

De feiten zijn als specifieke namen op een lijst (bijv. "De telefoonnummer van de burgemeester is 012-345678").
De niet-feiten zijn alles wat niet op die lijst staat (bijv. "De burgemeester heeft een paars neusje").

Een taalmodel (LLM) moet leren om te zeggen: "Ja, dit staat op de lijst" of "Nee, dit staat er niet op".

2. De Ruimteprobleem: De "Gedrukte" Rugzak

Het probleem is dat er miljarden mogelijke namen zijn, maar de rugzak van het model (zijn geheugen/parameters) is beperkt. Je kunt niet alles perfect onthouden. Je moet dus comprimeren.

Het paper vergelijkt dit met een Bloom-filter (een slimme, maar imperfecte lijst). Stel je voor dat je een lijst maakt van alle vrienden die je kent, maar je hebt maar ruimte voor een paar bits per vriend.

Als je iemand vraagt: "Ken je Jan?", en Jan staat op je lijst, zeg je "Ja".
Maar door de ruimtegebrek, kan het zijn dat je ook "Ja" zegt tegen "Klaas", terwijl Klaas je niet kent. Dat is een valse positieve (een hallucinatie).

3. De Grote Ontdekking: Hallucineren is de "Slimste" Weg

De auteurs bewijzen met wiskunde (een zogenaamde Rate-Distortion theorema) dat als je je geheugen beperkt is, de meest efficiënte strategie niet is om te zeggen: "Ik weet het niet" of "Ik heb het vergeten".

Nee, de slimste manier om ruimte te besparen is:

Onthoud alle echte feiten heel goed (geef ze een hoge zekerheid).
Maak een klein deel van de niet-feiten ook heel zeker.

De Analogie van de "Grote Hoed":
Stel je hebt een hoed met 1000 kaarten. 10 zijn echte feiten, 990 zijn onzin. Je mag de hoed alleen openen als je zeker weet dat het een feit is.
Als je ruimte hebt om alleen de 10 echte kaarten te onthouden, moet je de andere 990 vergeten. Maar als je ruimte hebt voor slechts 5 kaarten, moet je een keuze maken.
Het paper zegt: De beste manier om je geheugen te gebruiken, is om de 10 echte kaarten te onthouden, en 5 van de onzinnige kaarten ook als "echt" te behandelen. Waarom? Omdat het "vergeten" van de andere 985 onzinnige kaarten veel minder ruimte kost dan het proberen om ze allemaal perfect te onderscheiden.

Het model "kies" er dus voor om zeker te zijn van een paar leugens, omdat dat goedkoper is in termen van geheugenruimte dan het proberen om niets te hallucineren.

4. Waarom "Ik weet het niet" niet altijd werkt

Veel mensen denken dat we modellen moeten leren om te zeggen: "Ik weet het niet" als ze twijfelen.
Maar dit paper laat zien dat in een "gesloten wereld" (waar we aannemen dat alles wat we niet kennen, onzin is), het onmogelijk is om 100% zeker te zijn zonder oneindig veel geheugen.

Als je probeert om nooit een leugen te zeggen (0% hallucinatie), moet je zo veel ruimte gebruiken om alle mogelijke leugens uit te sluiten, dat je geen ruimte meer overhoudt om de echte feiten te onthouden. Je zou dan alles vergeten.

De conclusie: Hallucineren is de "prijs" die we betalen voor het kunnen onthouden van feiten. Het is de optimalisatie van het geheugen.

5. Wat betekent dit voor de toekomst?

Het is niet "domheid": Het is geen gebrek aan intelligentie. Het is een wiskundig noodzakelijk compromis.
Geen magische knop: Je kunt hallucinaties niet volledig wegdrukken door alleen de software te verbeteren. Je hebt meer geheugen nodig (of een externe bron, zoals een zoekmachine/RAG, die als een "extra rugzak" fungeert).
De afweging: Als je wilt dat een model minder hallucineert, moet je accepteren dat het vaker zegt "Ik weet het niet" (het vergeet meer feiten) of dat je een veel groter model nodig hebt.

Samenvattend in één zin:

Een taalmodel hallucineert niet omdat het dom is, maar omdat het, net als een mens met een beperkt geheugen, beter is in het onthouden van de belangrijkste dingen door een paar onbelangrijke leugens te accepteren, dan in het proberen om alles perfect te onthouden en daardoor niets meer te weten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing" in het Nederlands.

Titel: Hallucinatie is een gevolg van ruimte-optimaliteit: Een rate-distortion stelling voor lidmaatschapstesten

Auteurs: Anxin Guo (Northwestern University) en Jingwei Li (Columbia University).

1. Het Probleem

Grote Taalmodellen (LLMs) staan bekend om hun vermogen om "hallucinaties" te genereren: zelfverzekerde maar feitelijk onjuiste uitspraken. Bestaande theoretische verklaringen richten zich vaak op het "no-free-lunch"-principe (generalisatie is onmogelijk voor willekeurige feiten) of op het idee dat compressie fouten veroorzaakt. Echter, deze verklaringen leggen niet uit waarom hallucinaties specifiek zo prevalent zijn in plaats van simpelweg het vergeten van informatie (abstentie).

De auteurs stellen dat zelfs in een ideaal "gesloten wereld"-scenario (waar alle mogelijke feiten bekend zijn of als niet-feit worden behandeld als ze niet bekend zijn), en zelfs met perfecte data en training, hallucinaties onvermijdelijk zijn als gevolg van beperkte geheugencapaciteit. Het paper onderzoekt de fundamentele informatietheoretische grenzen van het onthouden van willekeurige feiten (zoals telefoonnummers of specifieke biografische details) die geen logische patronen hebben.

2. Methodologie

De auteurs formaliseren het probleem van het onthouden van feiten als een lidmaatschapstest-probleem (membership testing problem).

Formulering:
- Laat $U$ de universele verzameling zijn van alle mogelijke plausibele beweringen.
- Laat $K \subseteq U$ de verzameling zijn van de "ware" feiten (de sleutelset), met grootte $n$ .
- Een model fungeert als een lidmaatschapstester die voor een query $i \in U$ een betrouwbaarheidsscore $\hat{x}_i \in [0, 1]$ output.
- Een hallucinatie treedt op wanneer een niet-feit ( $i \notin K$ ) een hoge score krijgt.
Informatietheoretische Benadering:
- Het doel is om de minimale geheugenbudget (in bits) te vinden dat nodig is om een bepaald fouteniveau te bereiken.
- Ze definiëren foutmetrieken voor feiten ( $d_K$ ) en niet-feiten ( $d_N$ ). Voor probabilistische schattingen gebruiken ze log-loss (cross-entropy).
- Ze analyseren de sparse limiet, waarbij de verhouding tussen feiten en de totale ruimte naar nul gaat ( $n/u \to 0$ ).
Hoofdhypothese:
- De optimale strategie voor een model met beperkt geheugen is niet om feiten te vergeten, maar om een asymmetrische fout te maken: het model onthoudt alle feiten perfect, maar "hallucineert" (geeft hoge scores) op een klein, maar noodzakelijk, percentage van de niet-feiten. Dit minimaliseert de totale informatiekosten.

3. Belangrijkste Bijdragen

A. Een Rate-Distortion Stelling voor Lidmaatschapstesten

De auteurs bewijzen een fundamentele stelling die de trade-off tussen geheugen en fouten kwantificeert.

Stelling 1.1 (Informeel): Om $n$ $n$ sleutels op te slaan in een dunne regime en een bepaald fouteniveau te bereiken, is het noodzakelijk en voldoende om $n \cdot KL(\mu_K \| \mu_N)$ $n \cdot K L (μ_{K} ∥ μ_{N})$ bits aan informatie op te slaan.
- Hierbij is $KL(\mu_K \| \mu_N)$ de Kullback-Leibler-divergentie tussen de verdeling van scores voor feiten ( $\mu_K$ ) en niet-feiten ( $\mu_N$ ).
- Dit betekent dat de minimale geheugencost per feit wordt bepaald door hoe goed het model de verdeling van feiten kan onderscheiden van die van niet-feiten.

B. Hallucinatie als Optimale Foutmodus

Onder log-loss (de standaard voor LLM-training) leidt de optimalisatie van de KL-divergentie tot een specifieke, asymmetrische oplossing:

De "Hallucinatiekanaal": De optimale strategie is om alle feiten naar één hoog-vertrouwenspunt ( $x^*$ ) te sturen, en een fractie $q^*$ van de niet-feiten naar exact hetzelfde punt te sturen.
Conclusie: Het is memory-efficiënter om een klein percentage niet-feiten als feiten te behandelen (hallucineren) dan om de geheugencapaciteit te vergroten om deze te onderscheiden. Het vergeten van feiten of het toekennen van uniforme onzekerheid is suboptimaal onder beperkte capaciteit.

C. Tweezijdige Filters en Drempelwaarden

Voor binaire beslissingen (ja/nee) tonen ze aan dat elk LLM dat werkt via drempelwaarden (thresholding) onderhevig is aan de fundamentele trade-off van tweezijdige filters (filters die zowel vals-positieven als vals-negatieven toestaan).

Het elimineren van hallucinaties (vals-positieven) zonder het geheugen te vergroten vereist een toename in het vergeten van feiten (vals-negatieven/over-afwijzing).
Er bestaat geen "reverse Bloom filter" die vals-positieven volledig elimineert zonder oneindig geheugen in een grote ruimte.

4. Resultaten en Experimentele Validatie

De auteurs valideren hun theorie met synthetische experimenten:

Setup: Ze trainen kleine Transformer-modellen om willekeurige strings van 15 karakters te onthouden (waarbij een subset de "feiten" zijn).
Observaties:
1. Overeenkomst met theorie: De empirische verdeling van de output-scores voor niet-feiten toont een duidelijke "staart" die overlapt met de verdeling van de feiten. Dit bevestigt de voorspelde "hallucinatiekanaal".
2. Trade-off: Wanneer het model wordt gedwongen om meer feiten te onthouden (door de loss-functie te wegen), neemt de hallucinatiegraad (vals-positieven) scherp toe, terwijl de benodigde informatie per feit daalt.
3. Efficiëntie: De geleerde verdelingen komen zeer dicht in de buurt van de theoretische ondergrens (Kullback-Leibler divergentie), wat aantoont dat LLMs (of in dit geval de getrainde modellen) de informatie-theoretisch optimale strategie volgen.

5. Betekenis en Implicaties

Fundamentele Beperking: Hallucinaties zijn geen bug die met betere training of architectuur volledig kan worden opgelost, maar een fundamenteel gevolg van compressie in een systeem met beperkte capaciteit. Zolang feiten "willekeurig" en niet-inferreerbaar zijn, is het memory-efficiënt om ze te hallucineren.
Geheugenbudget: Zelfs modellen met miljarden parameters hebben een effectief geheugenbudget voor willekeurige feiten dat veel kleiner is dan het totale aantal parameters, omdat gestructureerde kennis (grammatica, redeneren) prioriteit krijgt tijdens het leren.
Implicaties voor Mitigatie:
- Abstentie ("Ik weet het niet"): Dit is een geldige strategie, maar het verplaatst het probleem naar een trade-off tussen hallucinatie en over-afwijzing (over-refusal). Je kunt niet beide minimaliseren zonder meer geheugen.
- RAG (Retrieval-Augmented Generation): Dit werkt omdat het de beperking van het parametrische geheugen omzeilt. Door externe kennis op te halen, is het geheugenbudget voor specifieke feiten niet langer de beperkende factor.
- Fine-tuning: Het expliciet trainen op willekeurige feiten kan helpen, maar alleen als het model voldoende capaciteit krijgt toegewezen om de "hallucinatiekanaal" te verminderen.

Conclusie: Het paper biedt een rigoureuze informatietheoretische onderbouwing waarom hallucinaties onvermijdelijk zijn in een gesloten wereld met beperkt geheugen. Het suggereert dat we hallucinaties moeten zien als een noodzakelijke "distortion" in het proces van het comprimeren van kennis, en dat mitigatiestrategieën moeten focussen op het vergroten van het effectieve geheugen (bijv. via RAG) of het accepteren van een trade-off tussen precisie en recall.