Ursprüngliche Autoren: Mohit Singh Chauhan

Veröffentlicht 2026-06-02✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Mohit Singh Chauhan

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie haben einen sehr intelligenten, selbstbewussten Roboter, der Fragen beantwortet. Manchmal erfindet dieser Roboter Dinge dazu. Wir nennen diese Fehler „Halluzinationen“.

Lange Zeit versuchten Forscher, diese Fehler danach zu sortieren, was falsch war (z. B. „Er hat die Fakten falsch wiedergegeben“ oder „Er hat schlecht geschlussfolgert“). Aber die Autoren dieser Arbeit, Mohit Singh Chauhan, sagen, dass dies so ist, als würde man Autounfälle danach sortieren, ob man „gegen einen Baum gekracht ist“ oder „gegen eine Wand gekracht ist“. Das sagt uns zwar, was passiert ist, aber es verrät uns nicht, wie wir den Fahrer aufhalten können, bevor der Crash passiert.

Diese Arbeit stellt eine neue Art vor, Fehler zu sortieren, die DECK genannt wird. Anstatt sich auf den Inhalt des Fehlers zu konzentrieren, betrachtet sie das Signal, das der Fehler hinterlässt. Sie fragt: „Welcher Typ von Detektor hätte dies bemerkt?“

Die zwei Detektoren (Die Achsen)

Um ihr System aufzubauen, nutzen die Autoren zwei einfache „Sensoren“, um den Roboter zu beobachten:

Der Konsistenz-Sensor (Der „Wiederholungs“-Test): Wenn Sie dem Roboter dieselbe Frage 10 Mal stellen, gibt er Ihnen jedes Mal dieselbe Antwort?
- Hohe Konsistenz: Er wiederholt dieselbe Antwort.
- Niedrige Konsistenz: Er gibt jedes Mal eine andere Antwort.
Der Konfidenz-Sensor (Der „Sicherheits“-Test): Wie sicher klingt der Roboter? Sagt er die Antwort mit 100 % Gewissheit oder klingt er eher zögerlich?
- Hohe Konfidenz: „Ich bin mir zu 100 % sicher.“
- Niedrige Konfidenz: „Ich denke vielleicht...“

Die DECK-Taxonomie (Die vier Boxen)

Durch die Kombination dieser beiden Sensoren erstellen die Autoren ein 2x2-Raster mit vier Arten von Fehlern. Sie haben ihnen eingängige Namen gegeben:

1. Drift (Der „Verwirrte Drifter“)

Was es ist: Der Roboter ist selbstbewusst, gibt aber jedes Mal eine andere falsche Antwort, wenn man ihn fragt.
Die Analogie: Stellen Sie sich einen Reiseleiter vor, der sehr laut und überzeugt auftritt, aber jedes Mal, wenn Sie fragen: „Wo ist das Museum?“, zeigt er in eine andere Richtung. Er ist selbstbewusst, aber er driftet ab.
Wer entdeckt das? Ein Black-Box-Detektor (einer, der prüft, ob Antworten übereinstimmen) wird dies entdecken, da die Antworten nicht übereinstimmen.

2. Entrenched (Der „Sture Esel“)

Was es ist: Der Roboter ist selbstbewusst und gibt jedes einzelne Mal die exakt gleiche falsche Antwort.
Die Analogie: Dies ist wie ein Schüler, der die falsche Antwortlösung auswendig gelernt hat. Wenn Sie ihn fragen: „Was ist 2+2?“, wird er jedes Mal selbstbewusst „5“ sagen, egal wie oft Sie fragen. Er steckt (entrenched) in einem Irrtum fest.
Wer entdeckt das? Das ist der schwierigste Fall. Konsistenz-Detektoren halten es für richtig, weil es konsistent ist! Nur ein Richter (eine zweite, unabhängige KI, die die Fakten kennt) kann dies entdecken.

3. Confabulation (Der „Zögerliche Fabrikant“)

Was es ist: Der Roboter ist unsicher und gibt jedes Mal andere falsche Antworten.
Die Analogie: Dies ist der Roboter, der zugibt: „Ich weiß es nicht genau, aber hier ist eine Vermutung... ach, vielleicht ist es ja doch diese andere Vermutung?“ Er erfindet Dinge, weiß aber gleichzeitig, dass er nur rät.
Wer entdeckt das? Alle entdecken das. Es ist niedrige Konfidenz und inkonsistent, also markieren alle Detektoren dies als „riskant“.

4. Knotted (Die „Verknotete Hecke“)

Was es ist: Der Roboter ist unsicher (niedrige Konfidenz), gibt aber jedes Mal die exakt gleiche falsche Antwort.
Die Analogie: Stellen Sie sich einen Roboter vor, der Angst hat, falsch zu liegen, und deshalb immer wieder sagt: „Ich bin mir nicht sicher, aber ich denke, es ist wahrscheinlich X“, und er sagt jedes Mal „wahrscheinlich X“. Er ist in einem sicheren, repetitiven, aber falschen Muster „verknotet“.
Wer entdeckt das? Ein White-Box-Detektor (einer, der die interne Mathematik des Roboters betrachtet) wird dies entdecken, weil die interne Mathematik des Roboters zeigt, dass er sich eigentlich nicht sicher ist, obwohl die Antwort wiederholt wird.

Die große Entdeckung: Der „Universelle blinde Fleck“

Die Arbeit fand eine beängstigende Situation, in der alle Detektoren gleichzeitig versagen.

Sie testeten die Roboter mit Fragen, die niemand beantworten kann (wie „Was ist die Hauptstadt eines Landes, das es noch gar nicht gibt?“).

Die Roboter sagten nicht „Ich weiß es nicht“.
Stattdessen erfanden sie selbstbewusst eine falsche Antwort und wiederholten diese jedes Mal.

Dies schuf eine perfekte Falle:

Der Konsistenz-Sensor sah, dass sie die Antwort wiederholten, und dachte: „Großartig, es ist konsistent!“
Der Konfidenz-Sensor sah, dass sie selbstbewusst klangen, und dachte: „Großartig, es ist selbstbewusst!“
Der Richter versagte, weil der Richter die Antwort ebenfalls nicht kannte (da das Land noch nicht existiert).

Die Autoren nennen dies den „Universellen blinden Fleck“. Wenn ein Roboter selbstbewusst eine Lüge über etwas wiederholt, über das er nichts weiß, kann kein aktueller Detektor ihn aufhalten.

Die Lösung

Die Arbeit legt nahe, dass wir anstatt zu versuchen, einen besseren Detektor zu bauen, um diese spezifischen Lügen zu entlarven, einen „Refusal Envelope“ (Ablehnungs-Umschlag) bauen sollten. Dies ist wie ein Türsteher vor einem Club. Wenn die Frage etwas betrifft, das der Roboter nicht wissen sollte (eine Wissenslücke), sollte der Türsteher den Roboter daran hindern, überhaupt zu antworten, und statlich sagen: „Ich kann das nicht beantworten“, bevor der Roboter überhaupt versucht, etwas zu erfinden.

Zusammenfassung

Die Arbeit sagt nicht nur: „KI macht Fehler.“ Sie sagt: „KI macht Fehler in vier spezifischen Mustern. Einige Muster sind leicht zu entdecken, einige sind schwer zu entdecken, und ein spezielles Muster (selbstbewusste, wiederholte Lügen über Unbekanntes) ist mit aktuellen Werkzeugen derzeit unmöglich zu entdecken. Wir müssen den Roboter daran hindern, diese Fragen überhaupt zu beantworten.“

Technisches Resümee: DECK – Eine Konsistenz-×-Konfidenz-Taxonomie von LLM-Halluzinationen

Problemstellung

Bestehende Taxonomien für Halluzinationen in Large Language Models (LLMs) klassifizieren Fehler basierend auf der Art des Ausgabefehlers (z. B. auswendig gelernte Fehlvorstellungen, Denkfehler, fluide Fabrikationen). Während diese Frameworks für die Diagnose nützlich sind, adressieren sie keine kritische Frage der Implementierung: Welcher Uncertainty Quantification (UQ) Scorer hätte einen spezifischen Fehler erkannt?

Die aktuelle Literatur bietet drei primäre Familien von Output-Level-UQ-Scorern an:

Black-box (BB): Inter-Sample-Konsistenzprüfungen (z. B. semantische Entropie, Self-Check).
White-box (WB): Token-basierte Log-Wahrscheinlichkeitsmaße.
LLM-as-a-Judge (J): Faktische Überprüfung durch ein separates Modell.

Das Verhältnis zwischen spezifischen Halluzinationstypen und den detektierbaren Signaturen, die diese Scorer-Familien erfassen, bleibt jedoch implizit. Ohne eine Taxonomie, die auf der Detektionsachse basiert, bleibt die Auswahl eines Scorers für ein neues Domänengebiet ein heuristisches Raten. Darüber hinaus mangelt es an einem mechanistischen Verständnis darüber, warum bestimmte Ensembles besser abschneiden als andere und wo universelle Ausfallmodi existieren könnten.

Methodik

Die DECK-Taxonomie

Das Paper schlägt DECK vor, eine komplementäre Taxonomie, die Halluzinationen nach ihrer Detektierbarkeitssignatur klassifiziert, anstatt nach ihrem semantischen Inhalt. Sie unterteilt Halluzinationen in ein $2 \times 2$ -Gitter basierend auf zwei beobachtbaren Achsen:

Inter-Sample-Konsistenz: Produziert das Modell über mehrere unabhängige stochastische Stichproben hinweg dieselbe falsche Antwort?
Token-basierte Konfidenz: Weist das Modell den generierten Tokens eine hohe Wahrscheinlichkeit zu?

Dies ergibt vier Verhaltensregime (Tabelle 1):

Drift (D): Niedrige Konsistenz, hohe Konfidenz. Das Modell generiert für jede Stichprobe unterschiedliche, selbstbewusste, falsche Antworten.
Entrenched (E): Hohe Konsistenz, hohe Konfidenz. Das Modell verharrt auf einer auswendig gelernten Fehlvorstellung oder einem gemeinsamen Pretraining-Fehler und reproduziert diesen ohne Varianz.
Confabulation (C): Niedrige Konsistenz, niedrige Konfidenz. Dem Modell fehlt es an echtem Wissen, was dazu führt, dass es unterschiedliche falsche Antworten mit geringer Konfidenz produziert.
Knotted (K): Hohe Konsistenz, niedrige Konfidenz. Das Modell wiederholt konsistent dieselbe vorsichtige oder falsche Antwort, weist aber eine niedrige Token-Wahrscheinlichkeit zu.

Operationalisierung: Die Zugehörigkeit zu einer Zelle wird durch Anwendung der optimalen Youden-J-Schwellenwerte auf die BB (Konsistenz) und WB (Konfidenz) Scorer-Werte auf einer pro-Bedingung-Basis bestimmt.

Experimentelles Setup

Modelle: Llama-3-8B (Open-Weights), GPT-4o (Closed-Weights) und Gemini-2.5-Flash (Closed-Weights).
Datensätze: TriviaQA (faktisch), HaluEval (adversarielle Halluzinationen), SelfAware (unbeantwortbare Fragen/Wissenslücken) und PopQA (entitätszentriert, nach Popularität stratifiziert).
Scorer: 15 Konfigurationen über die drei Familien hinweg, ausgewählt basierend auf dem höchsten AUROC pro Split, um Bias zu vermeiden.
Evaluierung:
- AUROC: Performance pro Scorer.
- Komplementarität ( $C_H$ ): Der Anteil der halluzinierten Samples, bei denen zwei Scorer uneinig sind.
- Externe Validierung: Überprüfung, ob externe Labels (z. B. Entitätspopularität, adversarieller Charakter) in den vorhergesagten DECK-Zellen liegen.

Zentrale Beiträge

Die DECK-Taxonomie: Ein Wechsel von der Klassifizierung dessen, was falsch ist, hin zu dem, wie ein Fehler detektiert wird. Sie bildet explizit die vier Verhaltensregime auf die Stärken und Schwächen der drei Scorer-Familien ab:
- Drift: Detektierbar durch BB und Judge.
- Entrenched: Detektierbar nur durch einen unabhängigen Judge (blind gegenüber BB und WB).
- Confabulation: Detektierbar durch alle drei Familien.
- Knotted: Detektierbar durch WB und Judge.
Identifizierung eines universellen Blind Spots: Das Paper identifiziert ein Regime, in dem alle Output-Level-UQ-Familien gleichzeitig kollabieren. Bei „Wissenslücken“-Inputs (z. B. SelfAware unbeantwortbare Fragen), bei denen der Generator selbstbewusste, wiederholbare Fabrikationen emittiert, sieht BB eine hohe Übereinstimmung, WB eine hohe Token-Wahrscheinlichkeit und die Judges teilen dieselbe Wissenslücke. In diesem Regime versagt die Output-Level-UQ konstruktionsbedingt.
Mechanistische Validierung von Ensembling: Das Paper liefert eine strukturelle Erklärung dafür, warum Ensembling funktioniert. Es zeigt, dass die Uneinigkeit der Scorer nicht zufällig ist, sondern in spezifischen DECK-Quadranten konzentriert ist (z. B. BB übersieht Entrenched/Knotted; WB übersieht Drift/Entrenched), was die Komplementarität der Familien validiert.

Ergebnisse

Taxonomie-Validierung

Disagreement-Analyse: Über 12 Modell-Datensatz-Kombinationen hinweg stimmen die Disagreement-Muster zwischen Scorer-Paaren mit den DECK-Vorhersagen überein. Beispielsweise konzentrieren sich BB-Judge-Uneinigkeiten in den Zellen Entrenched und Knotted (die Blind Spots von BB), während WB-Judge-Uneinigkeiten in den Zellen Drift und Confabulation konzentriert sind.
Externe-Signal-Validierung:
- SelfAware (Unbeantwortbar): Samples landen vorwiegend in der Entrenched-Zelle (62–71 % über verschiedene Modelle hinweg), was die Hypothese bestätigt, dass Wissenslücken-Halluzinationen als selbstbewusste, wiederholbare Fehler auftreten.
- PopQA (Seltene Entitäten): Samples landen vorwiegend in Confabulation, konsistent mit Modellen, denen spezifisches Entitätswissen fehlt.
- PopQA (Beliebte Entitäten): Samples landen in Entrenched, was auswendig gelernte Fehlvorstellungen widerspiegelt.
- HaluEval: Zeigt modellabhängige Verteilungen, die oft zwischen Entrenched und Knotted/Confabulation aufgeteilt sind.

Der universelle Blind Spot

Auf dem SelfAware-Datensatz (Wissenslücken) kollabierten alle drei Scorer-Familien auf nahezu Zufallsleistung (AUROC $\approx$ 0,5 oder niedriger).

GPT-4o: 13 von 15 Scorern fielen unter 0,5 AUROC; $P(\text{True})$ invertierte zu 0,331.
Interner Zustands-Probe: Ein Linear Probe auf den Last-Layer Hidden States von Llama-3-8B kollabierte ebenfalls auf Zufallsleistung (AUROC 0,44) auf SelfAware, was darauf hindeutet, dass der Ausfallmodus auf der Aktivierungsebene persistiert und nicht nur auf der Output-Ebene liegt.
Fazur: Keine Ensemble aus Output-Level-Scorern kann diese Fehler detektieren; die einzige technische Antwort ist ein Abstentions-Envelope (Verzicht-Hülle), um solche Inputs vor der Scoring-Phase an Refusal oder Retrieval zu routen.

Effekte der Modellskalierung

TriviaQA: Die Skalierung von Llama-3-8B zu GPT-4o verschob die verbleibende Uneinigkeit von Confabulation/Knotted hin zu Drift. Größere Modelle produzierten mehr selbstbewusste, wiederholbare Halluzinationen, die für Judges detektierbar waren, aber von BB-Konsistenzprüfungen verpasst wurden.
PopQA: Skalierung erhöhte signifikant die Komplementarität zwischen Judges und anderen Familien, insbesondere bei entitätszentrierten Abfragen.

Bedeutung und Ansprüche

Das Paper behauptet, dass DECK eine mechanistische Erklärung für die Unsicherheitsquantifizierung in LLMs liefert, die über empirisches Ensembling hinausgeht und zu einem strukturellen Verständnis führt, warum bestimmte Scorer einander ergänzen.

Diagnostischer Nutzen: DECK ermöglicht es Praktikern, vorherzusagen, welche Scorer-Familie für einen bestimmten Halluzinationstyp versagen wird (z. B. die Erwartung, dass BB bei Entrenched-Fehlern versagt).
Limitierung der Output-Level-UQ: Das Paper behauptet bescheiden, aber bestimmt, dass die Output-Level-UQ einen fundamentalen, universellen Blind Spot bei Wissenslücken-Inputs hat, bei denen das Modell selbstbewusst falsch liegt. Dies ist eine Eigenschaft des (Generator, Aufgabe)-Paares, nicht eines spezifischen Algorithmus.
Evidenz durch interne Zustände: Die vorläufige Erkenntnis, dass ein einfacher Linear Probe auf den Hidden States ebenfalls auf diesen Inputs versagt, deutet darauf hin, dass der Fehler tief im Aktivationsraum des Modells liegt, obwohl die Autoren anmerken, dass reichere Methoden der internen Zustände (z. B. UQ-Heads, informationstheoretische Schätzer) noch getestet werden müssen.

Das Werk kommt zu dem Schluss, dass Ensembling zwar die Performance in vielen Regimen verbessert, aber den universellen Blind Spot von selbstbewussten, wiederholbaren Fabrikationen auf unbeantwortbaren Inputs nicht überwinden kann. Die angemessene technische Antwort ist nicht ein komplexeres Ensemble, sondern ein systemweites Abstentions-Mechanismus (Verzicht-Mechanismus).

DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations