LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

Diese Studie zeigt durch Experimente mit kontrollierten arithmetischen Aufgaben, dass große Sprachmodelle ihre Antworten nicht vorab festlegen, sondern während der Generierung einer Chain-of-Thought-Argumentation schrittweise berechnen, wodurch die erzeugten Erklärungen als vertrauenswürdige Abbildungen der internen Berechnungen gelten können.

Keito Kudo, Yoichi Aoki, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi, Ana Brassard, Keisuke Sakaguchi, Kentaro Inui

Veröffentlicht 2026-03-20
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Denken die KI-Modelle wirklich nach?

Stellen Sie sich vor, Sie fragen eine sehr intelligente KI: „Wenn A 1 plus B ist und B 2 plus 3 ist, was ist dann A?"
Die KI antwortet nicht sofort mit „6". Sie schreibt erst einen ganzen Gedankengang auf:

  1. „Okay, B ist 2 plus 3, also ist B 5."
  2. „Jetzt setze ich das ein: A ist 1 plus 5."
  3. „Also ist A 6."

Das nennt man Chain-of-Thought (Gedankenkette). Das Problem ist: Denkt die KI wirklich so, wie sie schreibt? Oder hat sie das Ergebnis „6" schon im Kopf, bevor sie den ersten Satz des Gedankengangs geschrieben hat, und schreibt den Rest nur, damit es wie eine echte Rechnung aussieht?

Das ist wie bei einem Schüler, der die Antwort auf eine Matheaufgabe schon auf einem Zettel hat, aber trotzdem den Lösungsweg aufschreibt, um den Lehrer zu täuschen. Wenn das der Fall ist, ist der Gedankengang unehrlich (unfaithful).

Was haben die Forscher herausgefunden?

Die Forscher von der Tohoku-Universität und anderen Instituten wollten genau das herausfinden. Sie haben sich die „Gehirnwellen" (die inneren Daten) der KI genau angesehen, während sie rechnet.

Das Ergebnis ist überraschend und beruhigend:
Die KI nicht die Antwort im Voraus. Sie rechnet tatsächlich live mit.

Hier ist die Analogie dazu:

1. Der Bauarbeiter-Analogie

Stellen Sie sich die KI als einen Bauarbeiter vor, der eine Mauer baut.

  • Die alte Sorge: Man dachte, der Bauarbeiter würde den gesamten Plan (die Antwort) schon in der Tasche haben, bevor er den ersten Stein legt. Er würde dann nur so tun, als würde er Stein für Stein setzen, um den Plan zu erfüllen.
  • Was die Studie zeigt: Der Bauarbeiter hat den Plan nicht. Er nimmt sich einen Stein (einen Zwischenschritt), prüft ihn, legt ihn hin. Dann nimmt er den nächsten. Die Antwort (die fertige Mauer) entsteht erst, wenn der letzte Stein gesetzt ist. Die KI berechnet die Teilergebnisse (wie „B = 5") erst, während sie schreibt.

2. Der Detektiv-Analogie

Stellen Sie sich die KI als einen Detektiv vor, der einen Fall löst.

  • Die Sorge: Der Detektiv weiß schon, wer der Täter ist, und schreibt nur eine Geschichte auf, die zu diesem Verdächtigten passt.
  • Was die Studie zeigt: Der Detektiv liest die Beweise (die Eingabe), sucht nach Hinweisen, schreibt sich Notizen auf (die CoT-Schritte) und kommt während des Schreibens erst auf die Lösung. Wenn man ihm die Notizen wegnimmt oder verändert, ändert sich auch seine Lösung. Das bedeutet: Die Notizen sind der Schlüssel zur Lösung, nicht nur eine Fassade.

Wie haben sie das bewiesen?

Die Forscher haben zwei clevere Tricks angewendet:

Trick 1: Der Röntgenblick (Linear Probing)
Sie haben eine Art „Röntgengerät" gebaut, das in die inneren Daten der KI schaut. Sie haben gefragt: „Kannst du in diesem Moment schon die Zahl 5 sehen?"

  • Ergebnis: Solange die KI nur die Aufgabe liest, sieht das Röntgengerät keine klare Zahl. Erst wenn die KI anfängt zu schreiben („B ist 2 plus 3..."), taucht die Zahl 5 plötzlich klar in den Daten auf. Die Antwort wird also während des Denkens geboren, nicht vorher.

Trick 2: Der Gehirn-Chirurg (Causal Intervention)
Das ist der spannendste Teil. Die Forscher haben sich vorgestellt, sie könnten Teile des Gehirns der KI austauschen.

  • Sie haben einer KI eine Aufgabe gegeben (z. B. „A = 1 + B, B = 2 + 3").
  • Dann haben sie die „Gedanken" (die inneren Daten) einer anderen KI, die eine andere Aufgabe löste (z. B. „B = 2 + 4"), in die erste KI eingefügt.
  • Was passierte? Die erste KI hat plötzlich die Antwort der zweiten KI gegeben!
  • Wichtig: Das funktionierte nur, wenn sie die Daten aus dem Gedankengang (CoT) austauschten. Wenn sie nur die Daten aus dem Eingabetext (die ursprüngliche Frage) austauschten, passierte nichts.

Das beweist: Die KI verlässt sich auf das, was sie gerade geschrieben hat, um zur Antwort zu kommen. Sie holt sich die Antwort nicht aus einem versteckten Speicher vor dem Schreiben.

Warum ist das wichtig?

Das ist eine sehr gute Nachricht für das Vertrauen in KI.
Wenn die KI die Antwort schon vorher gewusst hätte und den Gedankengang nur erfunden hätte, wären wir bei komplexen Aufgaben (wie Medizin oder Recht) in Gefahr. Wir könnten dem Text nicht trauen.

Da die Studie zeigt, dass die KI während des Schreibens tatsächlich rechnet, können wir dem Gedankengang vertrauen. Wenn die KI einen Fehler macht, liegt es daran, dass sie den Rechenweg falsch gemacht hat, nicht daran, dass sie lügt.

Zusammenfassung in einem Satz

Die KI ist kein Schauspieler, der eine fertige Antwort vorliest und den Rest erfindet; sie ist ein echter Denker, der die Lösung Schritt für Schritt erarbeitet, während sie spricht.