Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein großes Sprachmodell (LLM) ist wie ein extrem gut informierter, aber manchmal etwas selbstverliebter Bibliothekar. Er kennt fast alles, was in den Büchern seiner riesigen Bibliothek (dem Trainingsdatensatz) steht. Aber manchmal erfindet er Dinge, die nicht stimmen – das nennt man „Halluzinationen".

Die große Frage war bisher: Kann dieser Bibliothekar merken, wenn er lügt? Kann er sagen: „Moment, ich bin mir bei dieser Antwort nicht sicher, weil ich das nicht wirklich weiß"?

Dieses Papier sagt im Grunde: „Nein, nicht wirklich." Und hier ist die Erklärung, warum, mit ein paar einfachen Vergleichen:

1. Der Unterschied zwischen „Vergessen" und „Einfallsreichtum"

Das Papier unterscheidet zwei Arten von falschen Antworten, die der Bibliothekar gibt:

Typ A: Der „Leere Kopf" (Unassociated Hallucinations)
Stell dir vor, du fragst den Bibliothekar nach dem Lieblingsessen einer Person, die er noch nie gehört hat (z. B. „Brenda Johnston"). Da er keine Information über sie hat, erfindet er etwas völlig Beliebiges, wie „Portland".
- Das Gefühl im Gehirn des Modells: Hier ist es ruhig. Es gibt keine starken Verbindungen zu dem Namen. Es ist wie ein leeres Blatt Papier.
- Erkennbarkeit: Das ist leicht zu merken! Da der Bibliothekar hier „nichts weiß", sieht sein innerer Zustand anders aus als bei einer echten Antwort. Man kann hier leicht sagen: „Aha, hier weiß er nichts!"
Typ B: Der „Falsche Assoziation" (Associated Hallucinations)
Jetzt fragst du nach Barack Obama. Der Bibliothekar kennt ihn sehr gut. Er weiß, dass Obama oft mit „Chicago" in Verbindung gebracht wird (weil er dort studiert hat). Aber du fragst: „In welcher Stadt wurde Obama geboren?"
Der Bibliothekar denkt: „Obama + Chicago = Stark verbunden!" und antwortet fälschlicherweise: „Chicago".
- Das Gefühl im Gehirn des Modells: Hier ist es laut und voller Energie! Die Verbindung zwischen „Obama" und „Chicago" ist so stark in seinem Gedächtnis verankert, dass er sich wirklich sicher fühlt.
- Das Problem: Der Bibliothekar fühlt sich hier genau so sicher wie bei einer korrekten Antwort. Sein innerer Zustand (die „Gedanken") sieht fast identisch aus, egal ob er die Wahrheit sagt oder eine glatte Lüge, die auf einer starken Assoziation basiert.

2. Die Entdeckung: Es geht um „Erinnerung", nicht um „Wahrheit"

Die Forscher haben untersucht, was im Inneren des Modells passiert, wenn es antwortet. Sie haben festgestellt:

Die inneren Signale des Modells sagen uns nicht: „Ist das wahr?"
Sie sagen uns stattdessen: „Habe ich das in meinem Gedächtnis gefunden?"

Wenn das Modell eine starke Verbindung im Gedächtnis nutzt (wie Obama + Chicago), feuern die gleichen neuronalen Wege ab, egal ob die Antwort richtig oder falsch ist.
Es ist wie bei einem Musiker, der eine Melodie auswendig spielt. Ob er die Melodie richtig oder falsch spielt, ist für die Art und Weise, wie seine Finger über die Tasten gleiten, fast egal. Die Fingerbewegung (der interne Zustand) ist die gleiche.

3. Warum die aktuellen Detektoren versagen

Bisher haben Forscher versucht, Lügen zu erkennen, indem sie auf diese inneren Signale geschaut haben (wie auf die Fingerbewegung des Musikers).

Bei Typ A (Leerer Kopf): Das funktioniert super! Die Fingerbewegung ist völlig anders, wenn der Bibliothekar nichts weiß. Die Detektoren erkennen das leicht.
Bei Typ B (Falsche Assoziation): Das funktioniert gar nicht! Da die Fingerbewegung bei der Lüge genauso aussieht wie bei der Wahrheit, denken die Detektoren: „Alles klar, das ist eine korrekte Antwort!"

Das ist gefährlich, weil die häufigsten und gefährlichsten Lügen oft genau dieser Typ B sind: Dinge, die so plausibel klingen, weil sie auf echten, starken Assoziationen basieren.

4. Das Fazit: Der Bibliothekar weiß nicht, dass er lügt

Die Autoren des Papiers kommen zu einem ernüchternden Schluss:

LLMs können nicht wirklich unterscheiden zwischen „Ich weiß es nicht" und „Ich weiß es falsch, aber ich bin mir sicher".

Wenn sie nichts wissen: Merken sie es (und können es erkennen).
Wenn sie etwas falsch wissen (aber stark verknüpft ist): Merken sie es nicht. Sie fühlen sich so sicher wie bei der Wahrheit.

Was bedeutet das für uns?
Wir können uns nicht darauf verlassen, dass die KI uns sagt, wenn sie lügt, indem wir auf ihr „Bauchgefühl" (die internen Signale) hören. Wir brauchen externe Helfer, wie z. B. eine Faktenprüfung oder eine Datenbank, um zu überprüfen, ob die starke Assoziation auch wirklich der Wahrheit entspricht.

Zusammengefasst in einem Satz:
Ein KI-Modell ist wie ein sehr guter Schauspieler, der so gut ist, dass er beim Lügen genauso überzeugt wirkt wie beim Sprechen der Wahrheit – solange die Lüge auf einer starken, echten Erinnerung basiert. Wir müssen also selbst aufpassen und nicht nur auf sein „Gefühl" vertrauen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness" auf Deutsch.

1. Problemstellung

Große Sprachmodelle (LLMs) sind bekannt dafür, „Halluzinationen" zu produzieren – also plausible, aber faktisch falsche Aussagen. Aktuelle Forschungsarbeiten gehen davon aus, dass LLMs „wissen, was sie nicht wissen", und dass Halluzinationen und korrekte Antworten auf unterschiedlichen internen Prozessen basieren, die durch interne Signale (z. B. Hidden States, Attention-Weights) unterscheidbar sind.

Das Paper stellt diese Annahme jedoch in Frage. Die Autoren argumentieren, dass Halluzinationen multifaktoriell bedingt sind:

Wissenslücken: Das Modell hat keine Information über das Subjekt.
Statistische Kurzschlüsse: Das Modell nutzt während des Trainings gelernte, aber irreführende statistische Korrelationen (Spurious Associations), um Antworten zu generieren.

Die zentrale These ist: Wenn ein Modell auf solchen gelernten Assoziationen basiert (selbst wenn die Antwort falsch ist), sind die internen Prozesse mechanistisch identisch mit denen einer faktisch korrekten Erinnerung. Daher spiegeln interne Zustände primär den Abruf parametrischen Wissens wider und nicht die Wahrheit der Ausgabe. Dies macht die Unterscheidung zwischen korrekten Fakten und bestimmten Arten von Halluzinationen für bestehende Detektionsmethoden extrem schwierig.

2. Methodik

Taxonomie der Halluzinationen

Die Autoren führen eine neue Taxonomie ein, die über die reine faktische Korrektheit hinausgeht und die Beziehung zur Eingabe (dem Subjekt) betrachtet:

Faktische Assoziationen (Factual Associations, FA): Korrekte Antworten, die auf verlässlichem, im Modell gespeichertem Wissen basieren.
Assoziierte Halluzinationen (Associated Hallucinations, AH): Falsche Antworten, die durch starke, aber irreführende statistische Assoziationen mit dem Subjekt entstehen (z. B. Obama $\rightarrow$ Chicago, aber falsch im Kontext „Geburtsort").
Nicht-assozierte Halluzinationen (Unassociated Hallucinations, UH): Falsche Antworten, die keine starken Assoziationen zum Subjekt haben (z. B. ein völlig erfundener Name für ein unbekanntes Subjekt).

Datensatz und Kausale Intervention

Datenerstellung: Basierend auf Wikidata-Triples (Subjekt, Relation, Objekt) wurden Fragen generiert.
Klassifizierung: Um AHs von UHs zu unterscheiden, führen die Autoren eine kausale Intervention durch. Sie blockieren den Attention-Flow von den Subjekt-Tokens zum letzten Token und messen die Verschiebung der Ausgabeverteilung mittels Jensen-Shannon-Divergenz (JS-Divergenz).
- Eine hohe Divergenz zeigt eine starke Abhängigkeit vom Subjekt (AH).
- Eine niedrige Divergenz zeigt eine fehlende Abhängigkeit (UH).

Mechanistische Analyse

Die Analyse konzentriert sich auf drei Komponenten des Informationsflusses in Transformer-Architekturen (basierend auf Geva et al., 2023):

Subjekt-Repräsentationen: Norm der Hidden States in frühen Schichten.
Attention-Flow: Wie Information vom Subjekt zum Ziel-Token propagiert wird.
Ziel-Token-Repräsentationen: Geometrie der Hidden States im letzten Token.

Die Studie verwendet die Modelle LLaMA-3-8B und Mistral-7B-v0.3.

3. Wichtige Beiträge und Ergebnisse

A. Interne Zustände reflektieren Wissensabruf, nicht Wahrheit

Die mechanistische Analyse zeigt, dass AHs und FAs nahezu identische interne Prozesse durchlaufen:

Norm der Subjekt-Repräsentationen: AHs aktivieren Subjekt-Repräsentationen mit ähnlicher Stärke wie FAs (Norm-Verhältnis $\approx$ 1). UHs zeigen deutlich schwächere Aktivierung.
Attention-Flow: Der Informationsfluss vom Subjekt zum Ziel-Token ist bei AHs und FAs stark und ähnlich. Bei UHs ist er schwach.
Geometrie der Hidden States: In der Repräsentationsraum-Geometrie (visualisiert via t-SNE und Cosine-Similarity) überlappen sich AHs und FAs stark. UHs bilden hingegen einen klar separierten Cluster.

Fazit: Das Modell „denkt" bei einer AH genauso wie bei einer FA; es ruft nur eine falsche Assoziation ab. Daher sind interne Signale für AHs nicht verlässlich von korrekten Fakten zu unterscheiden.

B. Limitationen bestehender Detektionsmethoden

Die Autoren testen verschiedene Halluzinations-Detektionsansätze (White-Box-Proben und Black-Box-Metriken):

Ergebnis bei UHs: Hohe Detektionsleistung (AUROC $\approx$ 0,86–0,93), da diese geometrisch gut von FAs trennbar sind.
Ergebnis bei AHs: Sehr schlechte Leistung (AUROC $\approx$ 0,48–0,69), nahe am Zufallsraten.
Bedeutung: Herkömmliche Methoden scheitern systematisch bei „Assoziierten Halluzinationen", da diese auf denselben statistischen Mustern basieren wie korrekte Fakten.

C. Herausforderungen beim „Refusal Tuning"

Das Paper untersucht, ob Modelle trainiert werden können, falsche Antworten zu verweigern (Refusal Tuning):

UH-Training: Da UHs einen konsistenten, separaten Repräsentationsraum haben, lernt das Modell erfolgreich, diese zu verweigern (Verweigerungsrate: 82%).
AH-Training: Da AHs und FAs im selben Raum liegen, kann das Modell nicht lernen, AHs zu verweigern, ohne auch FAs zu verweigern. Die Verweigerungsrate für AHs liegt nur bei 33%.
Schlussfolgerung: Die Generalisierbarkeit von Verweigerungsstrategien ist durch die Heterogenität der Halluzinationen begrenzt.

4. Signifikanz und Implikationen

Neue Perspektive auf „Self-Awareness": LLMs haben keine intrinsische Fähigkeit, die Wahrheit ihrer eigenen Aussagen zu erkennen, wenn diese auf gelernten Assoziationen basieren. Sie „wissen" nur, dass sie Wissen abrufen, nicht ob dieses Wissen wahr ist.
Notwendigkeit neuer Evaluierungen: Detektionsmetriken müssen strikt zwischen AHs und UHs getrennt berichtet werden, da sie fundamental unterschiedliche interne Mechanismen repräsentieren.
Risiko für reale Anwendungen: Da AHs häufig bei populären, gut bekannten Themen auftreten (hohe Prävalenz in Trainingsdaten), sind sie besonders gefährlich, da sie schwer zu erkennen sind und oft fälschlicherweise als korrekt eingestuft werden.
Zukünftige Richtungen: Reine interne Signal-Analyse reicht nicht aus. Robuste Faktizitätsprüfung erfordert externe Mechanismen wie Fact-Checking-Module oder Retrieval-Augmented Generation (RAG).

Zusammenfassend widerlegt das Paper die vereinfachte Annahme, dass interne Zustände eines LLMs direkt die Wahrheit widerspiegeln. Stattdessen zeigen sie, dass die Unterscheidung zwischen „Wahrheit" und „Falschheit" für das Modell oft unsichtbar bleibt, wenn beide auf denselben parametrischen Assoziationen beruhen.