DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations

Das Paper führt DECK ein, eine neuartige 2x2-Taxonomie, die LLM-Halluzinationen basierend auf ihren Detektierbarkeitssignaturen über die Inter-Sample-Konsistenz und die Token-Level-Konfidenz klassifiziert, wodurch aufgezeigt wird, dass spezifische Fehlertypen (Drift, Entrenched, Confabulation, Knotted) unterschiedliche Detektionsmethoden erfordern und ein universeller blinder Fleck offengelegt wird, bei dem selbstbewusste, wiederholbare Fabrikationen bei Wissenslücken-Inputs durch aktuelle Ansätze der Unsicherheitsquantifizierung auf Output-Ebene unentdeckbar bleiben.

Ursprüngliche Autoren: Mohit Singh Chauhan

Veröffentlicht 2026-06-02✓ Author reviewed
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Mohit Singh Chauhan

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie haben einen sehr intelligenten, selbstbewussten Roboter, der Fragen beantwortet. Manchmal erfindet dieser Roboter Dinge dazu. Wir nennen diese Fehler „Halluzinationen“.

Lange Zeit versuchten Forscher, diese Fehler danach zu sortieren, was falsch war (z. B. „Er hat die Fakten falsch wiedergegeben“ oder „Er hat schlecht geschlussfolgert“). Aber die Autoren dieser Arbeit, Mohit Singh Chauhan, sagen, dass dies so ist, als würde man Autounfälle danach sortieren, ob man „gegen einen Baum gekracht ist“ oder „gegen eine Wand gekracht ist“. Das sagt uns zwar, was passiert ist, aber es verrät uns nicht, wie wir den Fahrer aufhalten können, bevor der Crash passiert.

Diese Arbeit stellt eine neue Art vor, Fehler zu sortieren, die DECK genannt wird. Anstatt sich auf den Inhalt des Fehlers zu konzentrieren, betrachtet sie das Signal, das der Fehler hinterlässt. Sie fragt: „Welcher Typ von Detektor hätte dies bemerkt?“

Die zwei Detektoren (Die Achsen)

Um ihr System aufzubauen, nutzen die Autoren zwei einfache „Sensoren“, um den Roboter zu beobachten:

  1. Der Konsistenz-Sensor (Der „Wiederholungs“-Test): Wenn Sie dem Roboter dieselbe Frage 10 Mal stellen, gibt er Ihnen jedes Mal dieselbe Antwort?
    • Hohe Konsistenz: Er wiederholt dieselbe Antwort.
    • Niedrige Konsistenz: Er gibt jedes Mal eine andere Antwort.
  2. Der Konfidenz-Sensor (Der „Sicherheits“-Test): Wie sicher klingt der Roboter? Sagt er die Antwort mit 100 % Gewissheit oder klingt er eher zögerlich?
    • Hohe Konfidenz: „Ich bin mir zu 100 % sicher.“
    • Niedrige Konfidenz: „Ich denke vielleicht...“

Die DECK-Taxonomie (Die vier Boxen)

Durch die Kombination dieser beiden Sensoren erstellen die Autoren ein 2x2-Raster mit vier Arten von Fehlern. Sie haben ihnen eingängige Namen gegeben:

1. Drift (Der „Verwirrte Drifter“)

  • Was es ist: Der Roboter ist selbstbewusst, gibt aber jedes Mal eine andere falsche Antwort, wenn man ihn fragt.
  • Die Analogie: Stellen Sie sich einen Reiseleiter vor, der sehr laut und überzeugt auftritt, aber jedes Mal, wenn Sie fragen: „Wo ist das Museum?“, zeigt er in eine andere Richtung. Er ist selbstbewusst, aber er driftet ab.
  • Wer entdeckt das? Ein Black-Box-Detektor (einer, der prüft, ob Antworten übereinstimmen) wird dies entdecken, da die Antworten nicht übereinstimmen.

2. Entrenched (Der „Sture Esel“)

  • Was es ist: Der Roboter ist selbstbewusst und gibt jedes einzelne Mal die exakt gleiche falsche Antwort.
  • Die Analogie: Dies ist wie ein Schüler, der die falsche Antwortlösung auswendig gelernt hat. Wenn Sie ihn fragen: „Was ist 2+2?“, wird er jedes Mal selbstbewusst „5“ sagen, egal wie oft Sie fragen. Er steckt (entrenched) in einem Irrtum fest.
  • Wer entdeckt das? Das ist der schwierigste Fall. Konsistenz-Detektoren halten es für richtig, weil es konsistent ist! Nur ein Richter (eine zweite, unabhängige KI, die die Fakten kennt) kann dies entdecken.

3. Confabulation (Der „Zögerliche Fabrikant“)

  • Was es ist: Der Roboter ist unsicher und gibt jedes Mal andere falsche Antworten.
  • Die Analogie: Dies ist der Roboter, der zugibt: „Ich weiß es nicht genau, aber hier ist eine Vermutung... ach, vielleicht ist es ja doch diese andere Vermutung?“ Er erfindet Dinge, weiß aber gleichzeitig, dass er nur rät.
  • Wer entdeckt das? Alle entdecken das. Es ist niedrige Konfidenz und inkonsistent, also markieren alle Detektoren dies als „riskant“.

4. Knotted (Die „Verknotete Hecke“)

  • Was es ist: Der Roboter ist unsicher (niedrige Konfidenz), gibt aber jedes Mal die exakt gleiche falsche Antwort.
  • Die Analogie: Stellen Sie sich einen Roboter vor, der Angst hat, falsch zu liegen, und deshalb immer wieder sagt: „Ich bin mir nicht sicher, aber ich denke, es ist wahrscheinlich X“, und er sagt jedes Mal „wahrscheinlich X“. Er ist in einem sicheren, repetitiven, aber falschen Muster „verknotet“.
  • Wer entdeckt das? Ein White-Box-Detektor (einer, der die interne Mathematik des Roboters betrachtet) wird dies entdecken, weil die interne Mathematik des Roboters zeigt, dass er sich eigentlich nicht sicher ist, obwohl die Antwort wiederholt wird.

Die große Entdeckung: Der „Universelle blinde Fleck“

Die Arbeit fand eine beängstigende Situation, in der alle Detektoren gleichzeitig versagen.

Sie testeten die Roboter mit Fragen, die niemand beantworten kann (wie „Was ist die Hauptstadt eines Landes, das es noch gar nicht gibt?“).

  • Die Roboter sagten nicht „Ich weiß es nicht“.
  • Stattdessen erfanden sie selbstbewusst eine falsche Antwort und wiederholten diese jedes Mal.

Dies schuf eine perfekte Falle:

  • Der Konsistenz-Sensor sah, dass sie die Antwort wiederholten, und dachte: „Großartig, es ist konsistent!“
  • Der Konfidenz-Sensor sah, dass sie selbstbewusst klangen, und dachte: „Großartig, es ist selbstbewusst!“
  • Der Richter versagte, weil der Richter die Antwort ebenfalls nicht kannte (da das Land noch nicht existiert).

Die Autoren nennen dies den „Universellen blinden Fleck“. Wenn ein Roboter selbstbewusst eine Lüge über etwas wiederholt, über das er nichts weiß, kann kein aktueller Detektor ihn aufhalten.

Die Lösung

Die Arbeit legt nahe, dass wir anstatt zu versuchen, einen besseren Detektor zu bauen, um diese spezifischen Lügen zu entlarven, einen „Refusal Envelope“ (Ablehnungs-Umschlag) bauen sollten. Dies ist wie ein Türsteher vor einem Club. Wenn die Frage etwas betrifft, das der Roboter nicht wissen sollte (eine Wissenslücke), sollte der Türsteher den Roboter daran hindern, überhaupt zu antworten, und statlich sagen: „Ich kann das nicht beantworten“, bevor der Roboter überhaupt versucht, etwas zu erfinden.

Zusammenfassung

Die Arbeit sagt nicht nur: „KI macht Fehler.“ Sie sagt: „KI macht Fehler in vier spezifischen Mustern. Einige Muster sind leicht zu entdecken, einige sind schwer zu entdecken, und ein spezielles Muster (selbstbewusste, wiederholte Lügen über Unbekanntes) ist mit aktuellen Werkzeugen derzeit unmöglich zu entdecken. Wir müssen den Roboter daran hindern, diese Fragen überhaupt zu beantworten.“

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →