Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Each language version is independently generated for its own context, not a direct translation.

Wahrheit als Reise: Wie wir die Gedanken von KI-Modellen besser verstehen

Stell dir vor, du hast einen sehr klugen, aber etwas verwirrten Freund, der dir eine Geschichte erzählt. Manchmal erzählt er die Wahrheit, manchmal erfindet er Dinge, und manchmal klingt alles ganz plausibel, ist aber trotzdem falsch.

Bisher haben Forscher versucht, herauszufinden, ob dieser Freund lügt, indem sie ihn einen einzigen Moment lang beobachteten. Sie haben sich gefragt: „Was denkt er gerade in diesem winzigen Sekundenbruchteil?" Das Problem ist: In diesem Moment ist sein Gehirn so voll mit verschiedenen Gedanken (Wörtern, Grammatik, Fakten), dass man schwer unterscheiden kann, ob er gerade logisch denkt oder nur zufällig die richtigen Wörter benutzt. Es ist, als würdest du versuchen, ein ganzes Buch zu verstehen, indem du nur auf ein einziges Wort auf einer Seite schaust.

Die Autoren dieses Papers haben eine neue Idee: Statt einen Moment einzufrieren, schauen wir uns die ganze Reise an.

Die Idee: Wahrheit ist eine Spur, kein Punkt

Stell dir vor, wie ein Wanderer einen Berg hinaufsteigt.

Der alte Weg (Static Probes): Man macht ein Foto des Wanderers genau in der Mitte des Weges. Man schaut auf seine Kleidung und versucht zu erraten, ob er oben ankommt. Das funktioniert oft nicht, weil der Wanderer vielleicht nur eine rote Jacke trägt (ein oberflächliches Merkmal), aber trotzdem den falschen Weg nimmt.
Der neue Weg (Truth as a Trajectory - TaT): Man filmt den ganzen Aufstieg. Man sieht nicht nur, wo der Wanderer ist, sondern wie er sich bewegt.
- Geht er sicher und flüssig den Pfad entlang? (Das ist eine wahre Antwort).
- Zuckt er plötzlich hin und her, macht abrupte Kurven oder stolpert? (Das ist eine falsche Antwort).

Das Papier nennt diese Methode „Wahrheit als Spur" (Truth as a Trajectory). Sie analysiert nicht den statischen Zustand des KI-Modells, sondern die Bewegung seiner Gedanken von Schicht zu Schicht.

Warum ist das so clever?

Es ignoriert das „Was" und schaut auf das „Wie":
Wenn ein KI-Modell eine giftige Aussage macht, aber das Wort „Gift" in Anführungszeichen setzt (weil es zitiert), denken alte Methoden oft: „Aha, das Wort Gift ist da, also ist es böse!"
Die neue Methode schaut sich an, wie sich die Gedanken bewegen. Bei einer echten bösen Absicht ist die Bewegung chaotisch und aggressiv. Bei einem Zitat ist die Bewegung ruhig und kontrolliert. Sie erkennt also die Absicht, nicht nur die Wörter.
Es funktioniert überall (Generalisierung):
Bisherige Methoden waren wie ein Schlüssel, der nur für eine bestimmte Tür passte. Wenn man sie an einer anderen Tür versuchte, klappte es nicht.
Die neue Methode lernt die Geometrie des Denkens. Es ist, als würde man lernen, wie ein Auto fährt, nicht nur wie es aussieht. Wenn man weiß, wie ein Auto sicher fährt, erkennt man das auch bei einem anderen Auto, einem LKW oder einem Motorrad. Die Forscher haben gezeigt, dass ihre Methode auf ganz verschiedenen Aufgaben (von Matheaufgaben bis zu Toxizitätstests) funktioniert, ohne neu trainiert werden zu müssen.
Es ist wie ein Detektiv, der die Fußspuren verfolgt:
Die Forscher haben herausgefunden, dass man nicht unbedingt wissen muss, was genau in jedem einzelnen Gehirnteil passiert. Es reicht zu wissen, wie sich die Gedanken von einer Schicht zur nächsten verändern. Diese Veränderungen (die „Verschiebung") verraten, ob das Modell gerade logisch schließt oder nur ratet.

Das Ergebnis

Die Forscher haben ihre Methode an vielen verschiedenen KI-Modellen getestet. Das Ergebnis ist beeindruckend:

Sie ist viel besser darin, zwischen wahren und falschen Schlussfolgerungen zu unterscheiden als die alten Methoden.
Sie ist robuster gegen Tricks (wie das Verwenden von giftigen Wörtern in harmlosem Kontext).
Sie funktioniert sogar bei sehr großen und komplexen KI-Modellen.

Fazit

Statt die KI wie ein statisches Foto zu betrachten, betrachten wir sie jetzt wie einen Film. Wir schauen uns an, wie ihre Gedanken fließen, sich drehen und entwickeln. Wenn der Fluss ruhig und geradlinig ist, ist die Antwort wahrscheinlich wahr. Wenn er wild hin und her springt, ist Vorsicht geboten.

Diese Methode gibt uns ein neues Werkzeug, um zu verstehen, ob eine KI wirklich „denkt" oder nur zufällig die richtigen Wörter ausspuckt – und das ist ein riesiger Schritt hin zu sichereren und vertrauenswürdigeren Künstlichen Intelligenzen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Die aktuelle Erklärbarkeit (Explainability) von Large Language Models (LLMs) stützt sich überwiegend auf die Analyse statischer Hidden States in einzelnen Schichten des Transformators. Diese Methoden basieren oft auf der Linear Representation Hypothesis, die annimmt, dass Konzepte wie logische Gültigkeit oder Toxizität als lineare Richtungen im Aktivierungsraum kodiert sind.

Die Autoren identifizieren jedoch zwei wesentliche Mängel dieses Ansatzes:

Polysemantik und Oberflächeneffekte: Die Aktivierungen sind mit polysemantischen Merkmalen überladen. Lineare Proben (Linear Probes) lernen daher oft nur oberflächliche lexikalische Muster (z. B. das Vorhandensein bestimmter Tokens) statt der zugrunde liegenden Reasoning-Strukturen.
Fehlende Generalisierbarkeit: Da diese Methoden statische Zustände betrachten, sind sie stark von den Trainingsdaten abhängig. Ein Probe, der in einem Kontext funktioniert, generalisiert oft nicht auf andere Domänen oder Aufgaben, da die „Geometrie der Wahrheit" taskspezifisch und orthogonal zueinander sein kann.

Das Ziel der Arbeit ist es, eine Methode zu entwickeln, die die interne Validität von Reasoning-Prozessen unabhängig von spezifischen lexikalischen Mustern und statischen Schichtauswahlen erkennen kann.

Methodik: Truth as a Trajectory (TaT)

Die Autoren schlagen Truth as a Trajectory (TaT) vor, ein Framework, das die Inferenz eines LLM nicht als Sammlung statischer Momentaufnahmen, sondern als dynamischen Prozess modelliert.

Kernkonzepte:

Trajektorien statt statischer Punkte: Statt die Aktivierung $h_{\ell}$ in einer einzelnen Schicht $\ell$ zu analysieren, betrachtet TaT den gesamten Inferenzpfad über alle Schichten und Tokens hinweg als eine kontinuierliche Trajektorie im Repräsentationsraum.
Layer-wise Displacement (Verschiebung): Um statische lexikalische Inhalte und persistente Token-Identitäten zu eliminieren, transformiert TaT die Rohaktivierungen in Verschiebungsvektoren:
$d_{t,\ell} = h_{t,\ell+1} - h_{t,\ell}$
Diese Differenz isoliert die aktive Aktualisierung des Residual-Streams durch den Transformer-Block und entfernt den „statischen Hintergrund". Dies entspricht der Annahme, dass die Art und Weise, wie sich die Repräsentation ändert (das „Wie"), aussagekräftiger für die Reasoning-Validität ist als der absolute Zustand (das „Was").
LSTM-basierte Klassifikation: Die sequenziellen Verschiebungsvektoren über alle Tokens und Schichten werden zu einer einzigen zeitlichen Sequenz $S_i$ gefaltet. Ein leichtgewichtiges LSTM (Long Short-Term Memory) wird trainiert, um diese Sequenz zu verarbeiten. Das LSTM lernt nicht-lineare strukturelle Invarianten, die mit korrektem Reasoning assoziiert sind, und gibt eine Wahrscheinlichkeit für die Validität der Inferenz aus.

Unterschied zu kinematischen Deskriptoren:
Die Autoren untersuchten zunächst einfache kinematische Metriken wie Geschwindigkeit (Velocity), Beschleunigung (Acceleration) und Krümmung (Curvature). Diese zeigten zwar gewisse Signale, generalisierten aber nicht konsistent über verschiedene Datensätze hinweg. TaT nutzt daher einen gelernten Ansatz (LSTM), der die komplexen, nicht-linearen Beziehungen in der Trajektorie erfasst.

Hauptbeiträge

Trajektorienbasierte Erklärbarkeit: Einführung von TaT als Framework, das die Inferenz als dynamische geometrische Evolution modelliert, anstatt sich auf isolierte Schichten zu konzentrieren.
Geometrische Invarianten über Aufgaben hinweg: Durch die Analyse von Verschiebungsvektoren statt Rohaktivierungen wird die Abhängigkeit von statischen lexikalischen Merkmalen reduziert. Dies offenbart eine Trajektorienstruktur, die für lineare Proben unsichtbar ist.
Robuste Verhaltenserkennung: Demonstration, dass Trajektorienanalysen auch auf komplexe Verhaltensmerkmale wie Toxizität angewendet werden können, wobei sie zwischen toxischer Absicht und harmlosem Zitieren von toxischem Vokabular unterscheiden können.

Ergebnisse und Evaluation

Die Methode wurde auf einer Vielzahl von Benchmarks getestet, darunter Commonsense-Reasoning (ARC, HellaSwag, OpenBookQA), Faktenprüfung (TruthfulQA) und Toxizitätserkennung (RealToxicityPrompts, ToxiGen). Getestet wurden sowohl Dense-Modelle (Llama-3.1-8B, Qwen2.5) als auch MoE-Architekturen.

Wichtige Ergebnisse:

Überlegene Out-of-Distribution (OOD) Generalisierung: Ein TaT-Klassifikator, der auf einem einzigen Datensatz (z. B. ARC-Easy) trainiert wurde, generalisiert deutlich besser auf unbekannte Datensätze als lineare Proben oder das Basis-Modell selbst (Zero-Shot/Few-Shot).
- Beispiel: Auf ARC-C trainiert, erreicht TaT eine OOD-Durchschnittsgenauigkeit von 79,31 %, während lineare Proben nur bei 70,49 % liegen.
Überlegenheit gegenüber Basis-Modellen: TaT übertrifft in vielen Fällen die inhärente Reasoning-Fähigkeit des Modells, selbst wenn das Modell Few-Shot-Beispiele erhält. Dies zeigt, dass die geometrische Struktur der Validität eine stärkere Signatur liefert als die reine Token-Wahrscheinlichkeit.
Robustheit bei Toxizität: Bei der Toxizitätserkennung (ToxiGen) erreicht TaT (84,23 % bei Llama-3.1-8B) signifikant bessere Ergebnisse als lineare Proben (79,62 %) oder Modelle, die Rohaktivierungen nutzen. TaT lernt die geometrische Signatur toxischer Generierung, unabhängig vom spezifischen verwendeten Vokabular.
Ablationsstudien:
- Die Verwendung von Displacement (Verschiebung) ist entscheidend; Modelle mit Rohaktivierungen zeigen stärkere Overfitting-Tendenzen auf lexikalische Muster.
- Die sequenzielle Ordnung (LSTM) ist notwendig; ein ordnungsunabhängiger Ansatz (Set MLP) performt schlechter, was darauf hindeutet, dass die Dynamik der Entwicklung über Schichten und Tokens entscheidend ist.
- Die Betrachtung der gesamten Trajektorie (alle Schichten und Tokens) ist notwendig; die Reduktion auf eine einzelne Schicht oder den letzten Token verschlechtert die Generalisierung erheblich.

Bedeutung und Fazit

Das Paper liefert einen Paradigmenwechsel in der Interpretierbarkeit von LLMs:

Von statisch zu dynamisch: Es beweist, dass die Validität von Reasoning-Prozessen nicht in einem statischen Punkt im Aktivierungsraum liegt, sondern in der Bewegung und Geometrie des Pfades durch den Netzwerkraum.
Unabhängigkeit von Lexik: Durch die Fokussierung auf Verschiebungen (Displacements) wird das Problem der Polysemantik und lexikalischer Confounds gemildert.
Praktische Anwendung: TaT bietet einen robusten Mechanismus zur Überwachung von Modellen in sicherheitskritischen Bereichen, da es in der Lage ist, fehlerhafte Reasoning-Pfade zu erkennen, selbst wenn das Modell korrekte Antworten generiert, aber auf falschen Heuristiken basiert.

Einschränkungen:
Der Ansatz erfordert einen höheren Rechenaufwand als einfache lineare Proben, da Aktivierungen über alle Schichten und Tokens extrahiert werden müssen. Zudem bleibt die spezifische geometrische Interpretation der vom LSTM gelernten Merkmale implizit (Black-Box innerhalb des Black-Box-Modells), was die mechanistische Interpretierbarkeit auf Ebene einzelner Neuronen oder Attention-Heads noch nicht vollständig löst.

Zusammenfassend etabliert TaT die Trajektorienanalyse als eine komplementäre und überlegene Perspektive für die Erklärbarkeit von LLMs, die besonders für die Detektion von Reasoning-Fehlern und die Sicherstellung von Modellverhalten in realen Szenarien geeignet ist.

Truth as a Trajectory: What Internal Representations Reveal About Large Language Model Reasoning

Die Idee: Wahrheit ist eine Spur, kein Punkt

Warum ist das so clever?

Das Ergebnis

Fazit

Problemstellung

Methodik: Truth as a Trajectory (TaT)

Hauptbeiträge

Ergebnisse und Evaluation

Bedeutung und Fazit

Mehr davon

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá