Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Halluzinierende" KI-Assistent

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas zu selbstbewussten Assistenten. Wenn du ihn nach etwas Fragst, antwortet er sofort und flüssig. Das Problem ist: Manchmal weiß er die Antwort gar nicht, er erfindet sie sich aber einfach aus dem Nichts, weil er so gerne redet. Er hält seine eigene Erfindung für eine Tatsache. Das nennen Forscher Halluzination.

Bisher haben wir versucht, das zu stoppen, indem wir dem Assistenten sagen: „Sei vorsichtig!" oder indem wir seine Antworten nachträglich auf Fakten prüfen. Aber das funktioniert nicht immer perfekt.

Die neue Idee: Ein Sicherheitsnetz aus zwei Schichten

Die Autoren dieses Papers schlagen vor, Halluzination nicht als „Falschheit" zu sehen, sondern als einen Fehler an der Tür. Stell dir vor, der Assistent produziert Ideen (wie ein Koch, der Gerichte zubereitet). Die eigentliche Aufgabe ist es, an der Tür zu stehen und zu entscheiden: „Darf dieses Gericht den Gast verlassen, oder ist es noch nicht fertig?"

Das Papier schlägt vor, diese Entscheidung durch ein Zwei-Schichten-System zu treffen:

Schicht 1: Der „Bittsteller" (Instruktion)

Das ist wie ein höflicher Assistent, dem du sagst: „Wenn du dir nicht sicher bist, sag einfach 'Ich weiß es nicht'."

Wie es funktioniert: Der KI wird befohlen, sich zurückzuhalten, wenn keine Beweise vorliegen.
Der Haken: Manchmal ist der Assistent zu ängstlich. Er sagt „Ich weiß es nicht", obwohl er die Antwort eigentlich kennt (zu vorsichtig). Oder bei kleineren KI-Modellen ignoriert er den Befehl einfach und erfindet trotzdem etwas (zu frech).

Schicht 2: Der „Sicherheitsinspektor" (Strukturelles Tor)

Das ist ein technischer Prüfer, der nicht auf das „Gefühl" der KI hört, sondern auf harte Daten. Er stellt drei Fragen:

Selbstkonsistenz: Wenn ich die Frage dreimal anders stelle, bekomme ich dann immer die gleiche Antwort? (Wenn die Antwort schwankt, ist sie wahrscheinlich falsch).
Paraphrase-Stabilität: Wenn ich die Antwort umschreibe, bleibt der Sinn erhalten?
Zitations-Check: Kann die KI beweisen, woher sie die Information hat? (Schaut sie in den bereitgestellten Text oder erfindet sie nur?).

Der Inspektor berechnet einen „Mangel-Score". Ist der Score zu hoch (zu viele Unsicherheiten), sperrt er die Tür und lässt die Antwort nicht raus.

Warum braucht man beides? (Das Zusammenspiel)

Das Paper zeigt, dass man beide Schichten braucht, weil sie unterschiedliche Fehler machen:

Szenario A: Der selbstbewusste Lügner.
Stell dir vor, die KI erfindet eine Geschichte, die so gut klingt, dass sie sich selbst davon überzeugt. Sie ist konsistent und stabil.
- Der „Bittsteller" (Schicht 1) würde hier versagen, weil die KI denkt: „Ich bin mir sicher!" und antwortet.
- Der „Inspektor" (Schicht 2) könnte hier auch versagen, wenn die Lüge so gut konstruiert ist, dass sie wie eine echte Antwort aussieht (besonders bei widersprüchlichen Beweisen).
- Lösung: Der „Bittsteller" kann in solchen Fällen trotzdem „Stopp" sagen, weil er den Kontext (z.B. widersprüchliche Quellen) besser versteht als der reine Algorithmus.
Szenario B: Der ängstliche oder unfähige Assistent.
Manchmal weiß die KI die Antwort, traut sich aber nicht, sie zu sagen, weil die Instruktion zu streng war. Oder ein kleineres KI-Modell ignoriert den Befehl einfach.
- Der „Bittsteller" sagt hier fälschlicherweise „Ich weiß es nicht".
- Der „Inspektor" (Schicht 2) schaut auf die Daten: „Moment, die Antwort ist stabil und passt zum Text!" -> Er öffnet die Tür.
- Lösung: Der Inspektor rettet die Situation, indem er die Tür öffnet, wenn die Daten gut sind, auch wenn die KI zögert.

Was haben sie herausgefunden?

Die Forscher haben das an drei verschiedenen KI-Modellen getestet (von klein bis sehr groß) und an 50 verschiedenen Arten von Fragen.

Allein reicht es nicht: Wenn man nur sagt „Sei vorsichtig", macht die KI Fehler (entweder zu viele Erfindungen oder zu viele „Ich weiß nicht"-Antworten). Wenn man nur den Inspektor nutzt, übersieht sie manchmal sehr clevere Erfindungen.
Die Kombination ist der Schlüssel: Wenn man beides zusammenbaut (der KI sagt „Sei vorsichtig" UND der Inspektor prüft die Daten), sinkt die Zahl der falschen Erfindungen fast auf Null (von 30–50% auf 0–4%).
Das Sicherheitsnetz: Besonders wichtig ist, dass der „Inspektor" funktioniert, selbst wenn die KI nicht mehr gut auf Befehle hört (wie bei kleineren Modellen). Er sorgt dafür, dass die KI nicht einfach blind losredet, wenn keine Beweise da sind.

Fazit in einem Bild

Stell dir vor, du willst ein Haus bauen.

Die KI ist der Maurer, der Ziegel setzt.
Die Instruktion ist der Architekt, der sagt: „Bau nur, wenn du den Plan hast."
Das Strukturelle Tor ist der Bauingenieur, der mit dem Messgerät prüft: „Ist der Boden stabil? Sind die Ziegel gerade?"

Wenn du nur den Architekten hast, baut der Maurer manchmal nichts, obwohl er könnte (zu ängstlich), oder er baut etwas Schiefes, weil er denkt, er sei schlau.
Wenn du nur den Ingenieur hast, übersieht er vielleicht, dass der Plan selbst widersprüchlich ist.
Aber wenn du beide hast, hast du ein Haus, das sicher steht und genau dort gebaut ist, wo es hin soll.

Das Paper zeigt also: Um KI-Halluzinationen wirklich zu stoppen, brauchen wir nicht nur einen besseren Befehl, sondern ein technisches Sicherheitssystem, das die KI an der Tür kontrolliert, bevor sie etwas sagt.

Each language version is independently generated for its own context, not a direct translation.

Titel

Halluzination als Fehlklassifikation der Ausgabegrenze: Eine composite Abstention-Architektur für Sprachmodelle
(Original: Hallucination as Output-Boundary Misclassification: A Composite Abstention Architecture for Language Models)

1. Problemstellung

Große Sprachmodelle (LLMs) neigen dazu, unbelegte Behauptungen zu generieren, ein Phänomen, das als Halluzination bezeichnet wird. Herkömmliche Ansätze zur Minderung dieses Problems arbeiten oft post-hoc (nach der Generierung), indem sie den Output gegen Quellen prüfen oder Verifizierer trainieren. Das Paper argumentiert jedoch, dass dies strukturell unzureichend ist, da der fehlerhafte Inhalt bereits produziert wurde.

Der Kern des Problems wird hier neu definiert: Halluzination ist keine reine Inhaltsgenauigkeitsfrage, sondern eine Fehlklassifikation an der Ausgabegrenze. Das Modell generiert Inhalte basierend auf internen Wahrscheinlichkeiten (Prior-Wissen), klassifiziert diese aber fälschlicherweise als evidenzbasierte Antworten, obwohl keine ausreichende Unterstützung durch den Kontext vorliegt. Dies wird als ein Kontrollproblem interpretiert, bei dem intern generierte Signale fälschlicherweise als externe, bestätigende Evidenz behandelt werden.

2. Methodik und Architektur

Die Autoren schlagen einen kompositen Abstention-Ansatz (Enthaltsamkeitsmechanismus) vor, der zwei komplementäre Mechanismen kombiniert, um die Ausgabe zu blockieren, bevor sie dem Nutzer präsentiert wird.

A. Theoretischer Rahmen: Output-Boundary Misclassification

Das Ziel ist es, den Moment zu kontrollieren, in dem eine intern generierte Fortsetzung als "Antwort" commitet wird. Wenn die evidenzbasierte Unterstützung fehlt, sollte das System abstinent (sich zurückhalten) bleiben.

B. Der Support-Deficit-Score ( $S_t$ )

Ein zentrales Element ist ein Black-Box-Support-Deficit-Score, der aus drei extern messbaren Signalen berechnet wird, ohne Zugriff auf die internen Gewichte des Modells:

Selbstkonsistenz ( $A_t$ ): Drei unabhängige Antworten werden generiert; $A_t$ ist der Anteil der Mehrheitsabstimmung.
Paraphrase-Stabilität ( $P_t$ ): Die Abfrage wird umformuliert und erneut eingereicht; $P_t$ misst die semantische Überlappung mit der Originalantwort.
Zitationsabdeckung ( $C_t$ ): Der Anteil der Inhaltswörter in der Antwort, die im bereitgestellten Kontext nachweisbar sind (via Keyword-Overlap).

Der Score wird wie folgt berechnet:
$S_t = 1 - \frac{A_t + P_t + C_t}{3}$
Ein hoher $S_t$ deutet auf einen Mangel an Unterstützung hin.

C. Abstention-Policy

Eine strukturelle Gate-Funktion blockiert die Ausgabe, wenn $S_t > \tau$ (Schwellenwert $\tau = 0.55$ ).

D. Die vier Evaluierungsbedingungen

Die Studie vergleicht vier Szenarien:

Baseline: Standard-Generierung ohne Einschränkungen.
Nur-Instruction: System-Prompt instruiert das Modell, sich bei fehlender Evidenz zurückzuhalten (keine strukturelle Durchsetzung).
Hard-Gated: Nur der strukturelle Gate-Mechanismus (basierend auf $S_t$ ) blockiert die Ausgabe.
Composite: Kombination aus Instruction und Gate. Die Ausgabe wird blockiert, wenn entweder das Modell selbst ablehnt oder der Gate-Score den Schwellenwert überschreitet.

3. Experimentelles Design

Modelle: GPT-3.5-turbo, GPT-4o-mini, GPT-4o.
Datensätze:
- Kontrollierte Evaluation: 50 Items über 5 epistemische Regime (R1: Beantwortbar, R2: Unbeantwortbar, R3: Widersprüchliche Evidenz, R4: Degradierter Retrieval, R5: Adversarieller Druck).
- Stress-Test: 100 Items aus TruthfulQA ohne Kontext (alle sollten eigentlich abstinieren).
Metriken: Genauigkeit (korrekte Antwort oder korrekte Enthaltung), Halluzinationsrate, Enthaltungsrate.

4. Wichtige Ergebnisse

A. Komplementäre Fehlermodi

Das Paper zeigt, dass weder Instruction-only noch der strukturelle Gate allein ausreichen:

Instruction-only: Reduziert Halluzinationen stark, neigt aber zu übermäßiger Vorsicht (falsche Enthaltung bei beantwortbaren Fragen, ca. 10% bei GPT-4o/mini) und versagt bei schwächeren Modellen (GPT-3.5 hat noch 6% Halluzinationen).
Struktureller Gate: Erhält 100% Genauigkeit bei beantwortbaren Fragen (keine falschen Enthaltungen), versagt aber bei sicherer Konfabulation (confident confabulation). Wenn das Modell bei widersprüchlichen Beweisen (Regime R3) eine Seite konsistent und stabil wählt, erkennt der Gate dies nicht als Fehler (Halluzinationsrate bis zu 70% bei GPT-4o/mini im Gate-only-Modus).

B. Leistung der Composite-Architektur

Die Kombination beider Mechanismen führt zu den besten Ergebnissen:

Gesamtgenauigkeit: 96–98% über alle Modelle hinweg.
Halluzinationsrate: 0–4%.
Robustheit: Im TruthfulQA-Stress-Test (ohne Kontext) erzwang der strukturelle Gate eine Enthaltungsrate von 98–100% bei allen Modellen, während Instruction-only bei GPT-3.5 nur auf 62% kam. Dies beweist, dass der Gate eine kapazitätsunabhängige Sicherheitsuntergrenze bietet.

C. Spezifische Fehleranalyse (Regime R3)

Bei widersprüchlichen Beweisen (R3) scheitert der Gate, weil das Modell eine konsistente, stabile Antwort wählt, die intern kohärent ist, aber faktisch falsch (da sie nur eine Seite des Konflikts ignoriert). Hier fängt der Instruction-Teil (durch Verweigerung) die Fehler ab, die der Gate übersehen hätte.

5. Signifikanz und Beiträge

Neues theoretisches Framing: Halluzination wird als Klassifikationsfehler an der Ausgabegrenze definiert, nicht nur als inhaltlicher Fehler. Dies verschiebt den Fokus von post-hoc Korrektur auf pre-emission Kontrolle.
Architektonischer Durchbruch: Die Studie demonstriert, dass eine composite Architektur notwendig ist, um die komplementären Schwachstellen von verbalen Anweisungen und strukturellen Signalen zu überbrücken.
Kapazitätsunabhängigkeit: Der strukturelle Gate bietet eine Sicherheitsuntergrenze, die auch bei Modellen mit schwächerer Instruktionsbefolgung (wie GPT-3.5) funktioniert, wo reine Prompting-Strategien versagen.
Praktische Implikationen: Für hochriskante Domänen (Medizin, Recht) ist der Aufwand (ca. 22 API-Aufrufe pro Query für die Composite-Methode) gerechtfertigt, um Halluzinationen nahezu auszuschließen.

6. Einschränkungen und Ausblick

Skalierung: Die Evaluation basierte auf 50 Items pro Regime; größere Benchmarks sind notwendig.
Modellfamilie: Die Ergebnisse stammen ausschließlich von OpenAI-Modellen (GPT-Serie); Generalisierung auf andere Architekturen (Llama, Claude) muss noch geprüft werden.
Signale: Die verwendeten Signale (Keyword-Overlap, Paraphrase) sind vereinfacht; fortschrittlichere Methoden (z.B. Entailment-Checks) könnten den Support-Deficit-Score verbessern.
Kosten: Der hohe API-Aufruf-Overhead macht die Methode derzeit eher für kritische Anwendungen geeignet als für alltägliche Chatbots.

Fazit: Das Paper liefert einen starken Beleg dafür, dass effektive Kontrolle von Halluzinationen eine Kombination aus instruktionsbasierter Selbstregulierung und struktureller Gate-Prüfung erfordert, um sowohl übermäßige Vorsicht als auch selbstsichere Fehlinformationen zu verhindern.