How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een superintelligente bibliothecaris hebt die miljoenen boeken kan lezen in een seconde. Je vraagt hem: "Wat staat er op pagina 42 van dit specifieke boek?" en hij antwoordt direct. Maar wat als hij iets verzonnen antwoordt, iets dat er niet in het boek staat, maar wel heel geloofwaardig klinkt? Dat noemen we een hallucinatie.

Dit onderzoek, uitgevoerd door Kamiwaza AI, is als een gigantische test voor deze bibliothecarissen. Ze hebben 35 verschillende modellen getest om te zien hoe vaak ze liegen als ze alleen op basis van documenten moeten antwoorden. Ze hebben een enorme hoeveelheid data verwerkt (172 miljard woorden!) om een eerlijk beeld te krijgen.

Hier is wat ze hebben ontdekt, vertaald naar alledaagse taal:

1. Iedereen liegt af en toe (zelfs de besten)

Zelfs de slimste bibliothecaris maakt fouten.

De beste: De allerbeste modellen (zoals GLM 4.5) liegen ongeveer 1 keer op de 100 vragen. Dat klinkt goed, maar in een bedrijf met duizenden vragen per dag is dat al veel.
De gemiddelde: Een gemiddeld model liegt ongeveer 1 keer op de 4 vragen.
De slechtere: Sommige modellen liegen in de helft van de gevallen.

De les: Je kunt er nooit 100% zeker van zijn dat het antwoord waar is. Je moet altijd een "controlemechanisme" hebben.

2. Hoe langer het verhaal, hoe groter de leugens

Stel je voor dat je iemand een kort verhaal van 1 pagina geeft. Diegene onthoudt alles perfect. Geef je diezelfde persoon nu een boek van 500 pagina's, dan begint het hoofd te draaien.

Bij korte documenten (32.000 woorden) werken de modellen redelijk goed.
Bij middellange documenten (128.000 woorden) beginnen ze al snel te vergeten wat er echt staat en beginnen ze te verzinnen.
Bij hele lange documenten (200.000 woorden) stort het systeem in. Sommige modellen die bij korte teksten 90% goed zaten, liegen bij lange teksten in 70% van de gevallen.

De les: De "grootte" van het geheugen van een AI (de context window) is niet hetzelfde als de "kwaliteit" van het geheugen. Hoe langer de tekst, hoe onbetrouwbaarder het antwoord vaak wordt.

3. Het vinden van feiten is anders dan het niet verzinnen

Dit is misschien wel de belangrijkste ontdekking. Er is een groot verschil tussen:

Goed zoeken: Het vinden van een feit dat wel in het boek staat.
Niet verzinnen: Het durven zeggen "dat staat er niet" als een vraag over iets gaat dat er niet staat.

Sommige modellen zijn uitstekende zoekers (ze vinden snel wat er staat), maar zijn ook heel snel geneigd om dingen te verzinnen als ze het niet weten. Het is alsof je een detective hebt die heel snel de waarheid vindt, maar als hij de waarheid niet weet, verzint hij een heel overtuigend verhaal. Een ander model is misschien een trage detective, maar als hij iets niet weet, zegt hij eerlijk: "Ik weet het niet."

De les: Een model dat goed scoort op "zoeken" is niet per se een model dat goed is in "niet liegen".

4. De "Temperatuur" knop: Koud of Warm?

In de AI-wereld is er een instelling genaamd "temperatuur".

Temperatuur 0 (Koud): De AI is superzeker, kiest altijd het meest waarschijnlijke woord. Mensen denken vaak: "Dit is het beste voor feiten."
Temperatuur 1 (Warm): De AI is creatiever en kiest soms minder waarschijnlijke woorden.

Het onderzoek toont aan dat Temperatuur 0 niet altijd het beste is.

Soms helpt een beetje "warmte" (Temperatuur 0,4 of 0,7) de AI om minder te liegen.
Maar het grootste gevaar van Temperatuur 0 is de "loop". Bij lange teksten kan een koude AI in een cirkel van herhalingen belanden (bijvoorbeeld: "en toen... en toen... en toen...") en nooit stoppen. Bij een warmere temperatuur breekt de AI deze cirkel sneller.

De les: Zet de AI niet altijd op "koud". Soms helpt een beetje warmte om te voorkomen dat de AI in een eindeloze herhaling belandt.

5. De computer maakt niet uit

Ze hebben getest op drie verschillende soorten supercomputers (van NVIDIA, AMD en Intel). Het resultaat? Het maakt geen verschil welke computer je gebruikt. Als je hetzelfde model op dezelfde manier laat werken, krijg je hetzelfde antwoord, ongeacht de hardware.

De les: Je hoeft je geen zorgen te maken over welke computer je koopt; de keuze van het model zelf is veel belangrijker.

Samenvatting voor de praktijk

Als je een bedrijf hebt en AI wilt gebruiken om vragen te beantwoorden op basis van je eigen documenten:

Kies je model slim: Niet het grootste model is het beste. Sommige families modellen (zoals GLM) liegen veel minder dan andere (zoals Llama), ongeacht hoe groot ze zijn.
Pas op met lange teksten: Als je hele lange documenten hebt, verwacht dan dat de AI meer gaat liegen.
Controleer altijd: Gebruik nooit een AI-antwoord zonder het te controleren, want zelfs de beste modellen liegen af en toe.
Gebruik de juiste instellingen: Zet de temperatuur niet automatisch op 0. Soms helpt een iets hogere waarde om de AI wakker te houden en te voorkomen dat hij in een loop belandt.

Kortom: AI is een krachtig hulpmiddel, maar het is geen onfeilbare waarheid. Het is meer als een zeer slimme stagiair die soms dingen uit zijn duim zuigt als hij denkt dat hij het moet weten.

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

1. Iedereen liegt af en toe (zelfs de besten)

2. Hoe langer het verhaal, hoe groter de leugens

3. Het vinden van feiten is anders dan het niet verzinnen

4. De "Temperatuur" knop: Koud of Warm?

5. De computer maakt niet uit

Samenvatting voor de praktijk

Titel: Hoeveel Hallucineren LLM's in Document Q&A-scenario's?

1. Het Probleem

2. Methodologie: RIKER

3. Belangrijkste Resultaten

A. Hallucinatie is onvermijdelijk en neemt toe met contextlengte

2. Modelkeuze is de belangrijkste factor (beter dan grootte)

3. Temperatuur-effecten zijn genuanceerd

4. Hardware is irrelevant voor prestaties

4. Bijdragen en Betekenis

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

1. Iedereen liegt af en toe (zelfs de besten)

2. Hoe langer het verhaal, hoe groter de leugens

3. Het vinden van feiten is anders dan het niet verzinnen

4. De "Temperatuur" knop: Koud of Warm?

5. De computer maakt niet uit

Samenvatting voor de praktijk

Titel: Hoeveel Hallucineren LLM's in Document Q&A-scenario's?

1. Het Probleem

2. Methodologie: RIKER

3. Belangrijkste Resultaten

A. Hallucinatie is onvermijdelijk en neemt toe met contextlengte

2. Modelkeuze is de belangrijkste factor (beter dan grootte)

3. Temperatuur-effecten zijn genuanceerd

4. Hardware is irrelevant voor prestaties

4. Bijdragen en Betekenis

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models