LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Denken die KI-Modelle wirklich nach?

Stellen Sie sich vor, Sie fragen eine sehr intelligente KI: „Wenn A 1 plus B ist und B 2 plus 3 ist, was ist dann A?"
Die KI antwortet nicht sofort mit „6". Sie schreibt erst einen ganzen Gedankengang auf:

„Okay, B ist 2 plus 3, also ist B 5."
„Jetzt setze ich das ein: A ist 1 plus 5."
„Also ist A 6."

Das nennt man Chain-of-Thought (Gedankenkette). Das Problem ist: Denkt die KI wirklich so, wie sie schreibt? Oder hat sie das Ergebnis „6" schon im Kopf, bevor sie den ersten Satz des Gedankengangs geschrieben hat, und schreibt den Rest nur, damit es wie eine echte Rechnung aussieht?

Das ist wie bei einem Schüler, der die Antwort auf eine Matheaufgabe schon auf einem Zettel hat, aber trotzdem den Lösungsweg aufschreibt, um den Lehrer zu täuschen. Wenn das der Fall ist, ist der Gedankengang unehrlich (unfaithful).

Was haben die Forscher herausgefunden?

Die Forscher von der Tohoku-Universität und anderen Instituten wollten genau das herausfinden. Sie haben sich die „Gehirnwellen" (die inneren Daten) der KI genau angesehen, während sie rechnet.

Das Ergebnis ist überraschend und beruhigend:
Die KI nicht die Antwort im Voraus. Sie rechnet tatsächlich live mit.

Hier ist die Analogie dazu:

1. Der Bauarbeiter-Analogie

Stellen Sie sich die KI als einen Bauarbeiter vor, der eine Mauer baut.

Die alte Sorge: Man dachte, der Bauarbeiter würde den gesamten Plan (die Antwort) schon in der Tasche haben, bevor er den ersten Stein legt. Er würde dann nur so tun, als würde er Stein für Stein setzen, um den Plan zu erfüllen.
Was die Studie zeigt: Der Bauarbeiter hat den Plan nicht. Er nimmt sich einen Stein (einen Zwischenschritt), prüft ihn, legt ihn hin. Dann nimmt er den nächsten. Die Antwort (die fertige Mauer) entsteht erst, wenn der letzte Stein gesetzt ist. Die KI berechnet die Teilergebnisse (wie „B = 5") erst, während sie schreibt.

2. Der Detektiv-Analogie

Stellen Sie sich die KI als einen Detektiv vor, der einen Fall löst.

Die Sorge: Der Detektiv weiß schon, wer der Täter ist, und schreibt nur eine Geschichte auf, die zu diesem Verdächtigten passt.
Was die Studie zeigt: Der Detektiv liest die Beweise (die Eingabe), sucht nach Hinweisen, schreibt sich Notizen auf (die CoT-Schritte) und kommt während des Schreibens erst auf die Lösung. Wenn man ihm die Notizen wegnimmt oder verändert, ändert sich auch seine Lösung. Das bedeutet: Die Notizen sind der Schlüssel zur Lösung, nicht nur eine Fassade.

Wie haben sie das bewiesen?

Die Forscher haben zwei clevere Tricks angewendet:

Trick 1: Der Röntgenblick (Linear Probing)
Sie haben eine Art „Röntgengerät" gebaut, das in die inneren Daten der KI schaut. Sie haben gefragt: „Kannst du in diesem Moment schon die Zahl 5 sehen?"

Ergebnis: Solange die KI nur die Aufgabe liest, sieht das Röntgengerät keine klare Zahl. Erst wenn die KI anfängt zu schreiben („B ist 2 plus 3..."), taucht die Zahl 5 plötzlich klar in den Daten auf. Die Antwort wird also während des Denkens geboren, nicht vorher.

Trick 2: Der Gehirn-Chirurg (Causal Intervention)
Das ist der spannendste Teil. Die Forscher haben sich vorgestellt, sie könnten Teile des Gehirns der KI austauschen.

Sie haben einer KI eine Aufgabe gegeben (z. B. „A = 1 + B, B = 2 + 3").
Dann haben sie die „Gedanken" (die inneren Daten) einer anderen KI, die eine andere Aufgabe löste (z. B. „B = 2 + 4"), in die erste KI eingefügt.
Was passierte? Die erste KI hat plötzlich die Antwort der zweiten KI gegeben!
Wichtig: Das funktionierte nur, wenn sie die Daten aus dem Gedankengang (CoT) austauschten. Wenn sie nur die Daten aus dem Eingabetext (die ursprüngliche Frage) austauschten, passierte nichts.

Das beweist: Die KI verlässt sich auf das, was sie gerade geschrieben hat, um zur Antwort zu kommen. Sie holt sich die Antwort nicht aus einem versteckten Speicher vor dem Schreiben.

Warum ist das wichtig?

Das ist eine sehr gute Nachricht für das Vertrauen in KI.
Wenn die KI die Antwort schon vorher gewusst hätte und den Gedankengang nur erfunden hätte, wären wir bei komplexen Aufgaben (wie Medizin oder Recht) in Gefahr. Wir könnten dem Text nicht trauen.

Da die Studie zeigt, dass die KI während des Schreibens tatsächlich rechnet, können wir dem Gedankengang vertrauen. Wenn die KI einen Fehler macht, liegt es daran, dass sie den Rechenweg falsch gemacht hat, nicht daran, dass sie lügt.

Zusammenfassung in einem Satz

Die KI ist kein Schauspieler, der eine fertige Antwort vorliest und den Rest erfindet; sie ist ein echter Denker, der die Lösung Schritt für Schritt erarbeitet, während sie spricht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Große Sprachmodelle (LLMs) nutzen häufig den „Chain-of-Thought" (CoT)-Ansatz, bei dem sie vor der finalen Antwort eine Kette von Zwischenschritten (Erklärungen) generieren. Eine kritische Frage der Interpretierbarkeit ist jedoch die Glaubwürdigkeit (Faithfulness) dieser Erklärungen:

Berechnet das Modell die Antwort tatsächlich während der Generierung der CoT-Schritte?
Oder hat das Modell die Antwort bereits vor Beginn der CoT-Generierung (im Eingabekontext) intern „festgelegt" und generiert die CoT lediglich als nachträgliche, plausible Rechtfertigung (Post-hoc-Rationalisierung)?

Wenn Letzteres der Fall wäre, wären CoT-Erklärungen nicht vertrauenswürdig, da sie nicht den tatsächlichen internen Berechnungsprozess widerspiegeln. Bisherige Studien liefern hierzu widersprüchliche Ergebnisse, oft aufgrund von methodischen Einschränkungen oder der Verwendung natürlicher Sprachdaten, die schwer zu kontrollieren sind.

2. Methodik

Die Autoren entwickeln einen streng kontrollierten experimentellen Rahmen, um den internen Informationsfluss von LLMs während der CoT-Reasoning zu analysieren.

A. Datensatz und Aufgaben

Statt natürlicher Sprache verwenden die Autoren einen synthetischen Datensatz aus mehrstufigen arithmetischen Aufgaben.

Aufbau: Aufgaben bestehen aus Zuweisungen (z. B. A = 1 + B, B = 2 + 3) und einer Abfrage (A = ?).
Komplexitätsstufen: Es gibt fünf Schwierigkeitsgrade (Level 1–5), definiert durch:
- Anzahl der benötigten Rechenschritte (#Step).
- Anzahl der Variablen, die nicht sofort gelöst werden können und in einem „Stack" warten müssen (#Stack).
- Anzahl irrelevanter Ablenkungs-Gleichungen (#Dist.).
Ziel: Durch die synthetische Natur des Datensatzes können Token-Level-Analysen durchgeführt werden, die bei natürlichen Texten unmöglich wären.

B. Lineare Probing (Linear Probing)

Um zu bestimmen, wann das Modell die Antwort intern kennt, trainieren die Autoren lineare Klassifikatoren (Probes) auf den versteckten Zuständen (Hidden States) des Modells.

Ziel: Vorhersage des Wertes einer Variablen (z. B. B) basierend auf den Hidden States $h_{t,l}$ an einem bestimmten Token $t$ und Layer $l$ .
Metrik: Die Genauigkeit wird über die Zeit (Token-Position) gemessen.
- $t^*$ : Der Zeitpunkt, an dem die Probing-Accuracy einen Schwellenwert (z. B. 90 %) überschreitet.
- Unterscheidung zwischen Pre-CoT (Eingabe, $t < 0$ ) und Post-CoT (Generierung, $t \ge 0$ ).
Hypothese: Wenn die Antwort vor CoT bekannt ist, sollte die Genauigkeit im Pre-CoT-Bereich hoch sein. Wenn sie während CoT berechnet wird, steigt sie erst im Post-CoT-Bereich an.

C. Kausale Intervention (Activation Patching)

Um die Kausalität zu bestätigen, führen die Autoren Interventionsexperimente durch (Activation Patching).

Verfahren: Sie nehmen Hidden States eines Modells, das ein anderes Problem löst (mit einer anderen Antwort), und ersetzen damit die Hidden States des Zielmodells an bestimmten Positionen während der Inferenz.
Ziel: Wenn das Ersetzen der Hidden States im CoT-Bereich die finale Antwort des Modells ändert, aber das Ersetzen im Eingabebereich (Pre-CoT) dies nicht tut, beweist dies einen kausalen Einfluss des CoT auf die Antwort.

3. Wichtige Ergebnisse

A. Ergebnisse des Linear Probing

Die Analyse über verschiedene Modelle (Qwen2.5, Llama 3, Yi, Mistral) und Schwierigkeitsgrade hinweg zeigt ein konsistentes Muster:

Keine Vorbestimmung: In den meisten Fällen (besonders bei komplexeren Aufgaben) ist die Probing-Accuracy im Pre-CoT-Bereich ( $t < 0$ ) niedrig. Das Modell kennt die Antwort noch nicht, wenn es den Input liest.
Berechnung „on the fly": Die Genauigkeit steigt signifikant erst während der Generierung der CoT-Schritte ( $t \ge 0$ ).
Beispiel: Bei Level 3 (2 Schritte) wird der Wert von B erst generiert, wenn das Modell den entsprechenden Schritt in der CoT schreibt, nicht schon beim Lesen der Eingabe.
Ausnahmen: Bei sehr einfachen Aufgaben (Level 1, keine Berechnung nötig) oder bei irrelevanteren Variablen (Distraktoren) zeigen sich andere Muster, was die Validität der Methode unterstreicht.

B. Ergebnisse der Kausalen Intervention

Die Patching-Experimente bestätigen die Probing-Ergebnisse kausal:

Abhängigkeit vom CoT: Das Ersetzen der Hidden States im CoT-Bereich führt dazu, dass das Modell die Antwort ändert (hohe „Success Rate").
Unabhängigkeit vom Input: Das Ersetzen der Hidden States im Eingabebereich (Pre-CoT) hat kaum einen Einfluss auf die finale Antwort.
Recency Bias: Die finale Antwort hängt kausal stark von den letzten Schritten der CoT ab. Das Modell verlässt sich auf die unmittelbar vorherigen Zwischenergebnisse, die im Text generiert wurden, anstatt alte Informationen aus dem Input neu zu berechnen.

C. Fehleranalyse

Bei Modellen, die falsche Antworten generieren, zeigt das Probing oft, dass die korrekte Antwort in früheren Schritten der Generierung im Hidden State vorhanden war, aber später durch den Generierungsprozess „verloren" ging. Dies deutet darauf hin, dass die Berechnung intern stattfindet, aber die Ausgabe fehlerhaft sein kann.

4. Hauptbeiträge

Nachweis der Glaubwürdigkeit (Faithfulness): Die Studie liefert starke empirische Belege dafür, dass CoT-Erklärungen bei mehrstufigen logischen/arithmetischen Aufgaben keine bloßen Post-hoc-Rationalisierungen sind, sondern echte, iterative Berechnungen widerspiegeln.
Mechanistische Einblicke: Die Autoren zeigen, dass LLMs Antworten nicht als Ganzes im Input speichern, sondern sie schrittweise während der Generierung konstruieren.
Methodischer Rahmen: Die Kombination aus synthetischen arithmetischen Aufgaben, Linear Probing auf Token-Ebene und kausaler Intervention bietet einen robusten Ansatz zur Untersuchung des internen Reasoning-Prozesses, der über reine Korrelationsstudien hinausgeht.
Generalisierung: Die Ergebnisse gelten über verschiedene Modellarchitekturen und -größen hinweg (von 3B bis 34B Parametern).

5. Bedeutung und Implikationen

Vertrauen in CoT: Für Anwender und Entwickler bedeutet dies, dass CoT-Ausgaben bei komplexen Aufgaben tatsächlich den Denkprozess des Modells abbilden. Dies stärkt das Vertrauen in die Erklärbarkeit von LLMs bei logischen Schlussfolgerungen.
Debugging: Die Fähigkeit, den internen Zustand zu „sehen" (durch Probing), kann genutzt werden, um zu verstehen, warum ein Modell einen Fehler macht (z. B. ob der Fehler in der Berechnung oder in der Generierung liegt).
Grenzen: Die Autoren weisen darauf hin, dass diese Ergebnisse auf kontrollierten synthetischen Aufgaben basieren. Bei sehr einfachen Aufgaben, die kein echtes Reasoning erfordern, oder bei Aufgaben, die auf Faktenwissen basieren, könnte das Verhalten anders sein (Post-hoc-Rationalisierung ist dort wahrscheinlicher).
Zukunft: Die Studie legt nahe, dass zukünftige Interpretierbarkeitsforschung sich auf die Analyse der Generierungsphase konzentrieren sollte, da dort der eigentliche „Gedankengang" stattfindet.

Fazit: Die Studie widerlegt die Sorge, dass LLMs bei CoT-Aufgaben die Antwort bereits im Voraus wissen und die Erklärung nur fälschen. Stattdessen berechnen sie die Antwort iterativ und glaubwürdig während des Generierungsprozesses.