Directional Reasoning Trajectory Change (DRTC): Identifying Critical Trace Segments in Reasoning Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, ein KI-Modell ist wie ein Reisender, der eine sehr lange und verworrene Reise durch einen riesigen, dunklen Wald macht, um einen Schatz (die richtige Antwort auf eine Matheaufgabe) zu finden.

Oft läuft dieser Reisende erst in die falsche Richtung, stolpert über Wurzeln, dreht sich um, beschließt, einen anderen Weg zu gehen, und erst nach vielen Umwegen findet er den Schatz.

Bisher konnten Forscher nur sagen: „Hier ist der Schatz!" oder „Hier war der Reisende gerade." Aber sie wussten nicht genau: Wann hat er beschlossen, umzudrehen? Welches Blatt auf dem Boden hat ihn dazu gebracht, den Weg zu wechseln? Und war das wirklich der entscheidende Moment oder nur ein zufälliges Rauschen?

Das ist das Problem, das diese neue Methode namens DRTC (Directional Reasoning Trajectory Change) löst.

Hier ist die Erklärung in einfachen Bildern:

1. Das Problem: Der Labyrinth-Weg

Stell dir vor, du schaust einem Menschen zu, der ein Labyrinth durchquert. Er läuft 100 Schritte nach links, dann 50 Schritte nach rechts, dann stolpert er, denkt nach, und läuft plötzlich geradeaus zum Ausgang.
Wenn du nur das Endergebnis siehst, ist das Labyrinth gelöst. Aber wenn du verstehen willst, wie er es geschafft hat, musst du wissen:

War der Moment, in dem er stolperte, der wichtigste?
Oder war es der Satz, den er sich vor 20 Minuten selbst gesagt hat („Ich muss hier links abbiegen")?

Bisherige Methoden waren wie ein Highlighter-Stift: Sie haben einfach alle Wörter markiert, die am Ende wichtig schienen. Aber sie haben nicht gezeigt, wann und warum das Gehirn des KI-Modells den Kurs geändert hat.

2. Die Lösung: DRTC als „Zeitmaschinen-Kamera"

DRTC ist wie eine spezielle Kamera, die zwei Dinge tut:

Schritt A: Die „Wendepunkte" finden (Pivots)
Die Kamera sucht nach den Momenten, in denen der Reisende unsicher wird. Das sind die Stellen, wo er zögert, wo er sagt: „Moment mal, das ergibt keinen Sinn" oder „Vielleicht sollte ich es anders versuchen".

Analogie: Stell dir vor, du fährst mit dem Auto. Die Kamera sucht nicht nach jeder kleinen Kurve, sondern nur nach den Stellen, wo du das Lenkrad hart herumreißt, weil du einen neuen Weg gewählt hast. Diese Momente nennt das Papier Pivots (Drehpunkte).

Schritt B: Der „Geister-Test" (Intervention)
Jetzt kommt der magische Teil. An genau diesen Wendepunkten stellt sich die Frage: „Was wäre passiert, wenn wir den Reisenden nicht den Weg gezeigt hätten, den er vor 5 Minuten gegangen ist?"

Normalerweise würde man das Modell neu starten lassen, wenn man etwas ändert. Das wäre aber wie ein anderer Reisender auf einem anderen Weg – man könnte sie nicht vergleichen.
DRTC macht etwas Cleveres: Es blockiert nur die Information aus einem bestimmten früheren Textabschnitt genau in dem Moment, in dem der Wendepunkt passiert.

Die Analogie: Stell dir vor, der Reisende steht an einer Kreuzung (dem Wendepunkt). Jemand hält ihm eine Brille vor die Augen, die ihm nur den Textblock von vor 5 Minuten verdeckt. Aber der Rest der Welt bleibt gleich.
Schaut er dann immer noch in die gleiche Richtung? Oder dreht er sich plötzlich um?

3. Das Ergebnis: Eine Landkarte der Entscheidungen

Wenn das Entfernen eines Textblocks den Reisenden dazu bringt, in eine völlig andere Richtung zu schauen, dann war dieser Textblock entscheidend.

Das Papier misst genau, wie stark sich die Richtung ändert.

Positive Punkte: Textstellen, die den Reisenden auf dem richtigen Weg gehalten haben (wie ein Wegweiser).
Negative Punkte: Textstellen, die ihn verwirrt haben oder in die Irre geführt haben (wie ein falscher Wegweiser, den er später korrigiert hat).

4. Warum ist das cool?

Die Forscher haben herausgefunden, dass nicht alles wichtig ist.

Konzentration: Wie bei einem Orchester, bei dem nur ein paar Instrumente die Melodie tragen, sind bei der KI nur wenige Textstellen (etwa 5 % des Textes) für die entscheidenden Richtungswechsel verantwortlich. Der Rest ist nur „Füllmaterial" oder Hintergrundrauschen.
Lernen vs. Zufall: Wenn man zufällige Textstellen testet, passiert fast nichts. Aber wenn man die Stellen testet, die die KI selbst als wichtig erachtet hat (die „gelernten" Wendepunkte), dann ändern sich die Ergebnisse drastisch. Das beweist, dass die KI wirklich denkt und nicht nur zufällig Wörter aneinanderreiht.

Zusammenfassung in einem Satz

DRTC ist wie ein Detektiv, der nicht nur schaut, wo der Täter (die Antwort) war, sondern genau nachvollzieht, an welchem Punkt im Verhör (dem Denkprozess) der Verdächtige (die KI) beschlossen hat, die Wahrheit zu sagen, und welche Aussage (welcher Text) ihn dazu gebracht hat, die Richtung zu ändern.

Es hilft uns zu verstehen, dass KI nicht nur ein „Black Box" ist, die magisch antwortet, sondern ein Prozess, bei dem bestimmte Momente und Informationen den Kurs der Reise entscheidend lenken.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Moderne Sprachmodelle (LLMs) lösen komplexe Aufgaben zunehmend durch lange, nicht-lineare Denkprozesse (Reasoning Traces), die Rückverfolgungen, Verifizierungen und Strategieänderungen beinhalten. Bestehende Interpretierbarkeitsmethoden haben jedoch Schwierigkeiten, diese Prozesse zu analysieren:

Fehlende Kausalität: Herkömmliche Methoden (z. B. Gradienten-basierte Attributierung) heben oft nur Token hervor, die mit der Antwort korrelieren, zeigen aber nicht auf, wo entscheidende Wendepunkte (Pivots) stattfinden oder welcher frühere Kontext diese ausgelöst hat.
Off-Policy-Problematik: Das Editieren eines Textes und das Neustarten der Generierung (Resampling) führt oft zu qualitativ völlig anderen Verläufen, was einen fairen Vergleich erschwert.
Komplexität der Pfade: Der Denkprozess ist pfadabhängig; einmal getroffene Entscheidungen schränken die folgenden Generationen ein. Es ist schwierig, eine einzelne „entscheidende" Berechnung zu isolieren, ohne den gesamten Kontext zu verändern.

Das Ziel ist es, eine Methode zu entwickeln, die auf einem einzelnen, realisierten Rollout (On-Policy) basiert und kausal nachweist, welche früheren Kontextsegmente die Richtung des Denkprozesses an kritischen Entscheidungspunkten beeinflusst haben.

2. Methodik: Directional Reasoning Trajectory Change (DRTC)

DRTC ist ein prozess-kausaler Rahmen, der vier methodische Beiträge leistet:

A. Entdeckung von Pivot-Punkten (Pivot Discovery)

Das System identifiziert automatisch kritische Entscheidungspunkte („Pivots") innerhalb des generierten Textes, an denen das Modell unsicher ist oder seine Strategie ändert.

Signale: Es werden Unsicherheits- und Verteilungsverschiebungs-Signale genutzt (Entropie, Margin der Top-2-Wahrscheinlichkeiten, Jensen-Shannon-Divergenz zwischen vor- und nachgelagerten Token-Fenstern).
Gewichtung: Diese Punkte werden nach ihrer Wichtigkeit gewichtet, um die Analyse auf die relevantesten Momente zu fokussieren.

B. Temporale, On-Policy Interventionen (Receiver-Side Masking)

Anstatt den Text zu ändern und neu zu generieren, wendet DRTC eine Empfänger-seitige Intervention (Receiver-Side Intervention) an:

Mechanismus: An einem identifizierten Pivot wird der Aufmerksamkeitsfluss (Attention) von einem spezifischen früheren Textabschnitt (Chunk) zu diesem Pivot blockiert.
Vorteil: Der restliche Text (das „Realized Rollout") bleibt unverändert. Es wird kein neuer Pfad generiert. Dies ermöglicht eine kausale Gegenfaktoral-Analyse (Counterfactual), die strikt innerhalb des realisierten Verlaufs bleibt.
Screening: Ein „Relevance Gate" bewertet, ob die Blockierung eines Chunks den Pivot tatsächlich signifikant beeinflusst hat.

C. Gerichtete Trajektorien-Attribution (Directional Trajectory Attribution)

Das Kernkonzept ist die Messung der Richtungsänderung im Log-Wahrscheinlichkeitsraum (Log-Probability Space).

Vektor $g$ : Es wird eine globale Richtung des gesamten Rollouts definiert (basierend auf den Endpunkten der Pivot-Sequenz).
Interventions-Effekt: Für jeden Chunk wird gemessen, wie stark die Blockierung des Chunks an einem Pivot die lokale Logit-Verteilung in Richtung oder entgegen der realisierten Rollout-Richtung $g$ verschiebt.
Ergebnis: Ein vorzeichenbehafteter Attributions-Score pro Chunk. Positive Werte bedeuten, dass der Chunk die Richtung des Denkprozesses unterstützt; negative Werte deuten auf einen ablenkenden oder korrigierenden Einfluss hin.

D. Geometrische Diagnostik (Krümmung / Curvature)

Als ergänzendes diagnostisches Werkzeug wird die Krümmung im Logit-Raum berechnet.

Dies misst, wie stark sich die Richtung des Denkpfades durch Interventionen ändert (Winkeländerungen).
Wichtig: Die Krümmung wird nicht zur Berechnung der Attributions-Scores verwendet, sondern dient dazu, Interventions-Reaktionsmuster zu gruppieren („Curvature Signatures") und strukturelle Rollen von Textsegmenten zu identifizieren.

3. Wichtige Beiträge und Ergebnisse

Die Studie wurde an vier verschiedenen Reasoning-Modellen (u. a. R1-Distill-Qwen-1.5B, Ministral-3B, Phi-4-Mini) auf mathematischen Problemen (MATH-Dataset) evaluiert.

Konzentration des Einflusses: Der Einfluss ist nicht diffus, sondern stark konzentriert. Die Gini-Koeffizienten liegen zwischen 0,50 und 0,58, wobei die top 5 % der Textabschnitte etwa 23–28 % des gesamten Einflusses tragen.
Validierung durch Fälschungstests (Falsification):
- Lernende Pivots vs. Zufall: Die von DRTC identifizierten Pivots führen zu signifikant stärkeren Interventions-Effekten als zufällig gewählte Textabschnitte gleicher Länge (Median-Unterschied $\Delta = 0,409$ in einer 500-Beispiel-Studie, $p = 2,3 \times 10^{-21}$ ).
- Krümmungs-Invarianz: Das Hinzufügen der Krümmungs-Diagnostik ändert die Attributions-Rankings nicht (Korrelation $\rho = 1,0$ ), was bestätigt, dass die Krümmung rein diagnostisch und nicht in die Berechnung der Scores einfließt.
Vergleich mit Baselines: DRTC zeigt moderate bis starke Übereinstimmung mit Gradienten-basierten Methoden, übertrifft aber reine Okklusions-Methoden und Aktivierungs-Patching-Implementierungen in der Fähigkeit, kausale Richtungsänderungen zu erfassen.
Ergebnis-Linkage (Outcome Linkage): In einem Test mit „Teacher-Forcing" (Erzwingen der Gold-Antwort) führten die top-gerankten DRTC-Chunks zu einer stärkeren Verringerung der Log-Wahrscheinlichkeit der korrekten Antwort als zufällige Kontrollen. Dies deutet darauf hin, dass diese Chunks kausal für die Stabilität der Lösung sind.

4. Qualitative Interpretation

Die Analyse von Fallstudien zeigt, dass hochbewertete DRTC-Chunks oft mit folgenden Phänomenen korrelieren:

Positive Scores: Entsprechen oft strategischen Setzungen, strukturellen Zwängen (z. B. mathematischen Invarianten) oder der Korrektur von Fehlern, die den Pfad stabilisieren.
Negative Scores: Korrelieren oft mit unsicheren Überlegungen, Ablenkungen oder frühen Hypothesen, die später verworfen werden.
Krümmung: Hohe Krümmungswerte treten häufig bei Phasenübergängen auf (z. B. vom Verstehen des Problems zur Strategieentwicklung).

5. Bedeutung und Fazit

DRTC bietet einen neuen, kausal fundierten Blick darauf, wie spezifische Kontextelemente den Denkprozess von LLMs steuern.

Interpretierbarkeit: Es schließt die Lücke zwischen „Was wurde geantwortet?" und „Wie wurde die Antwort erreicht?", indem es die kritischen Wendepunkte und deren kausale Treiber identifiziert.
Effizienz: Die Methode ist effizient, da sie keine teure Neugenerierung von Pfaden erfordert, sondern auf einem einzigen Durchlauf basiert.
Auditierbarkeit: Das Framework exportiert vollständige Artefakte (JSON, interaktive UI), die es ermöglichen, jeden Schritt der Attribution und Intervention nachzuvollziehen.

Zusammenfassend stellt DRTC ein Werkzeug dar, um die „Steuerungsmechanismen" (Steering) von Reasoning-Modellen zu verstehen, indem es zeigt, welche Textsegmente den Denkpfad in welche Richtung lenken, und liefert damit eine Grundlage für mechanistische Interpretierbarkeit und Modellverbesserung.