How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Die große Lügen-Checkliste: Wie sehr erfinden KI-Modelle Fakten?

Stellen Sie sich vor, Sie geben einem extrem gut ausgebildeten Bibliothekar (dem KI-Modell) einen riesigen Stapel Aktenordner und bitten ihn, eine Frage zu beantworten, die sich nur auf das bezieht, was in diesen Ordnern steht.

Die große Frage der Studie lautet: Wie oft erfindet dieser Bibliothekar Dinge, die gar nicht in den Ordnern stehen?

Die Forscher von Kamiwaza AI haben 35 verschiedene „Bibliothekar-KIs" getestet. Sie haben dabei über 172 Milliarden Wörter (Tokens) verarbeitet – das ist mehr Text, als ein Mensch in seinem ganzen Leben lesen könnte. Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

1. Die „Lügen-Quote" ist unvermeidbar (auch bei den Besten)

Selbst die klügsten Bibliothekare lügen manchmal.

Der beste Bibliothekar: Bei einem kleinen Stapel Akten (32.000 Wörter) erfindet der Top-Modell (GLM 4.5) immer noch in 1,2 % der Fälle etwas. Das klingt wenig, aber bei 100 Fragen bedeutet das: Eine Antwort ist frei erfunden.
Der Durchschnitt: Die meisten Modelle erfinden bei 25 von 100 Fragen etwas.
Das Fazit: Es gibt keine KI, die zu 100 % ehrlich ist. Man muss immer damit rechnen, dass sie etwas dazuerfindet.

2. Je mehr Akten, desto mehr Lügen (Der „Wald vor lauter Bäumen"-Effekt)

Stellen Sie sich vor, Sie geben dem Bibliothekar nicht nur einen Ordner, sondern einen ganzen Raum voller Akten (128.000 oder 200.000 Wörter).

Das Problem: Je mehr Informationen auf einmal da sind, desto mehr verliert die KI den Faden.
Die Folge: Die Lügen-Quote steigt drastisch. Bei einem riesigen Stapel (200K) erfindet selbst der beste Bibliothekar bei über 10 % der Fragen etwas.
Ein extremes Beispiel: Ein Modell, das bei kleinen Stapeln sehr gut war, fing bei riesigen Stapeln an, in 70 % der Fälle zu lügen. Es war so überwältigt von der Menge der Daten, dass es einfach fingierte Antworten gab.

3. Nicht alle Bibliothekare sind gleich (Familie ist wichtiger als Größe)

Man könnte denken: „Je größer und stärker der Bibliothekar, desto ehrlicher ist er." Das ist falsch.

Die Größe täuscht: Ein riesiger Bibliothekar mit 400 Milliarden „Gehirnzellen" (Parametern) lügt genauso oft wie ein kleinerer.
Die Familie zählt: Es kommt darauf an, wie der Bibliothekar ausgebildet wurde.
- Die GLM-Familie und MiniMax waren wie ehrliche Prüflinge: Sie sagten oft „Ich weiß das nicht", wenn die Antwort nicht in den Akten stand.
- Die Llama-Familie (ein sehr beliebter KI-Typ) war oft wie ein selbstbewusster Lügner: Sie fanden die richtigen Fakten im Text, aber erfindeten trotzdem gerne Dinge dazu, wenn sie unsicher waren.
Lehre: Kaufen Sie nicht einfach das größte Modell. Wählen Sie das Modell, das für Ehrlichkeit trainiert wurde.

4. Der „Zitter-Modus" (Temperatur)

KI-Modelle haben einen Regler namens „Temperatur".

Temperatur 0 (Starr): Der Bibliothekar ist extrem konzentriert und wählt immer das erste, was ihm einfällt. Das ist gut für Genauigkeit, aber schlecht für die Stabilität. Bei großen Aktenstapeln gerät er oft in eine Endlosschleife (er wiederholt sich, bis er abbricht).
Temperatur 1 (Locker): Der Bibliothekar ist etwas entspannter und probiert verschiedene Wege aus.
Die Überraschung: Ein etwas lockererer Modus (Temperatur 0,4 oder 0,7) führte oft zu weniger Lügen und verhinderte, dass der Bibliothekar in Endlosschleifen geriet. Der starre „Null-Modus" ist also nicht immer die beste Wahl!

5. Der Computer macht keinen Unterschied

Die Forscher haben die KIs auf drei verschiedenen Computer-Chips getestet (von NVIDIA, AMD und Intel).

Ergebnis: Es war völlig egal, auf welchem Computer die KI lief. Ein Bibliothekar lügt auf einem Apple-Computer genauso oft wie auf einem Windows-Computer. Die Hardware ist also kein Grund für Fehler.

6. Das größte Missverständnis: „Finden" vs. „Erfinden"

Das ist der wichtigste Punkt der Studie:

Fähigkeit A (Finden): Die KI kann Informationen im Text suchen und finden.
Fähigkeit B (Nicht-Erfinden): Die KI kann sagen: „Das steht hier nicht, also antworte ich nicht."
Das Problem: Ein Modell kann super im Suchen sein, aber schrecklich im Nicht-Erfinden.
- Beispiel: Ein Bibliothekar findet perfekt die Seite 42, aber wenn Sie ihn nach etwas fragen, das auf Seite 42 gar nicht steht, erfindet er sich eine Antwort aus dem Kopf.
- Warnung: Viele Tests prüfen nur, ob die KI findet. Das reicht nicht! Man muss auch testen, ob sie lügt, wenn sie nichts findet.

🚀 Was bedeutet das für die Praxis?

Wenn Sie eine KI in Ihrem Unternehmen einsetzen wollen, um Dokumente zu durchsuchen:

Wählen Sie das richtige Modell: Suchen Sie nicht nach der größten KI, sondern nach einer, die für ihre Ehrlichkeit bekannt ist (wie GLM oder MiniMax).
Achten Sie auf die Aktenmenge: Wenn Sie sehr lange Dokumente haben, erwarten Sie mehr Fehler. Testen Sie die KI mit der tatsächlichen Länge der Dokumente, nicht nur mit kurzen Beispielen.
Nicht zu starr sein: Stellen Sie die KI nicht auf den absolut strengsten Modus (Temperatur 0). Ein leichtes „Zittern" (Temperatur 0,4) macht sie oft ehrlicher und verhindert, dass sie in Endlosschleifen gerät.
Überprüfen Sie alles: Gehen Sie davon aus, dass die KI manchmal lügt. Bauen Sie Sicherheitsnetze ein, um diese Lügen zu erkennen.

Zusammenfassend: KIs sind wie sehr intelligente, aber manchmal etwas zu selbstbewusste Bibliothekare. Je mehr Bücher sie gleichzeitig lesen müssen, desto mehr erfinden sie. Und manchmal ist ein etwas lockererer Umgangston besser als totale Strenge.

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

🕵️‍♂️ Die große Lügen-Checkliste: Wie sehr erfinden KI-Modelle Fakten?

1. Die „Lügen-Quote" ist unvermeidbar (auch bei den Besten)

2. Je mehr Akten, desto mehr Lügen (Der „Wald vor lauter Bäumen"-Effekt)

3. Nicht alle Bibliothekare sind gleich (Familie ist wichtiger als Größe)

4. Der „Zitter-Modus" (Temperatur)

5. Der Computer macht keinen Unterschied

6. Das größte Missverständnis: „Finden" vs. „Erfinden"

🚀 Was bedeutet das für die Praxis?

Technische Zusammenfassung: "How Much Do LLMs Hallucinate in Document Q&A Scenarios?"

1. Problemstellung

2. Methodik: RIKER

3. Wichtige Ergebnisse

A. Hardware-Unabhängigkeit

B. Kontextlänge und Leistungseinbruch

C. Temperatur-Effekte

D. Entkopplung von Grounding und Fabrication

E. Modellfamilie vs. Modellgröße

4. Bedeutung und Implikationen

5. Fazit

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

🕵️‍♂️ Die große Lügen-Checkliste: Wie sehr erfinden KI-Modelle Fakten?

1. Die „Lügen-Quote" ist unvermeidbar (auch bei den Besten)

2. Je mehr Akten, desto mehr Lügen (Der „Wald vor lauter Bäumen"-Effekt)

3. Nicht alle Bibliothekare sind gleich (Familie ist wichtiger als Größe)

4. Der „Zitter-Modus" (Temperatur)

5. Der Computer macht keinen Unterschied

6. Das größte Missverständnis: „Finden" vs. „Erfinden"

🚀 Was bedeutet das für die Praxis?

Technische Zusammenfassung: "How Much Do LLMs Hallucinate in Document Q&A Scenarios?"

1. Problemstellung

2. Methodik: RIKER

3. Wichtige Ergebnisse

A. Hardware-Unabhängigkeit

B. Kontextlänge und Leistungseinbruch

C. Temperatur-Effekte

D. Entkopplung von Grounding und Fabrication

E. Modellfamilie vs. Modellgröße

4. Bedeutung und Implikationen

5. Fazit

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models