Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Die Studie zeigt, dass bei schema-gesteuerten LLM-Pipelines die scheinbare Treue zu Zwischenergebnissen fragil ist, da Modelle diese Strukturen oft nicht als kausale Mediatoren behandeln, sondern lediglich als kontextuelle Einflüsse, was durch die Delegation der Entscheidungsfindung an externe Tools behoben werden kann.

Oleg Somov, Mikhail Chaichuk, Mikhail Seleznyov, Alexander Panchenko, Elena Tutubalina

Veröffentlicht 2026-03-18
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Der große Test: Denken LLMs wirklich nach, oder machen sie nur so?

Stellen Sie sich einen sehr klugen, aber manchmal etwas verwirrten Schüler vor (das ist die KI). Wenn Sie ihm eine schwierige Matheaufgabe geben, sagen Sie ihm: „Schreib mir erst deine Rechenschritte auf (das Zwischenergebnis) und dann erst das Endergebnis."

Die große Frage der Forscher war: Hört die KI wirklich auf ihre eigenen Rechenschritte, wenn sie das Endergebnis berechnet? Oder schreibt sie die Schritte nur auf, um gut zu aussehen, und berechnet das Ergebnis trotzdem einfach aus dem Gedächtnis?

Die Studie nennt dies „Treue" (Faithfulness).

1. Das Experiment: Der „Falsche Zettel"

Um das herauszufinden, haben die Forscher ein cleveres Spiel erfunden. Sie ließen die KI eine Aufgabe lösen und ihre Zwischenschritte (eine Art Checkliste) aufschreiben.

Dann griffen sie ein: Sie nahmen den Zettel mit den Zwischenschritten, änderten einen einzigen Punkt (z. B. von „Richtig" auf „Falsch") und gaben der KI den veränderten Zettel zurück.

  • Die Frage: Wenn die KI wirklich auf ihren Zettel hört, muss sich jetzt auch das Endergebnis ändern.
  • Die Realität: In bis zu 60 % der Fälle änderte die KI ihr Endergebnis nicht, obwohl ihr Zettel eindeutig anders lautete.

Die Analogie:
Stellen Sie sich vor, Sie gehen zu einem Restaurant und bestellen ein Steak. Der Kellner (die KI) schreibt auf: „Steak: Mittel durch, ohne Salz." Dann kommt er zurück und sagt: „Hier ist Ihr Steak, aber es ist durchgebraten und sehr salzig."
Wenn Sie ihn darauf hinweisen: „Hey, ich habe doch ‚mittel durch' und ‚ohne Salz' aufgeschrieben!", und er trotzdem sagt: „Nein, das ist genau das, was ich bestellt habe", dann hört er nicht auf seine eigene Notiz. Er ignoriert die Zwischenschritte und macht einfach weiter, wie er es schon immer gemacht hat.

2. Das Problem: Der „Geheimweg"

Die Studie zeigt, dass die KI oft einen Geheimweg nutzt. Sie schaut sich die ursprüngliche Frage an und springt direkt zum Ergebnis, ohne den Umweg über die Checkliste zu nehmen. Die Checkliste ist dann nur eine „Schaufassade" – sie sieht gut aus, hat aber keine echte Macht.

3. Die zwei Arten, die KI zu testen

Die Forscher haben zwei Szenarien getestet:

  • Korrektur: Die KI macht einen Fehler in der Checkliste, und die Forscher korrigieren ihn. (Die KI sollte sich dann korrigieren).
  • Gegenfaktisch: Die Forscher ändern eine korrekte Checkliste absichtlich falsch. (Die KI sollte sich dann auch falsch anpassen).

Das überraschende Ergebnis: Die KI ist viel besser darin, sich auf eine falsche Anweisung einzustellen (sie wird verwirrt und ändert ihre Antwort), als auf eine korrekte Anweisung zu hören, wenn sie vorher einen Fehler gemacht hat. Sie ist also eher „zerstörbar" als „korrigierbar".

4. Die Lösung: Der externe Taschenrechner

Die Forscher haben dann einen Trick ausprobiert: Sie haben der KI verboten, das Endergebnis selbst zu berechnen. Stattdessen mussten sie ihre Checkliste an einen externen Taschenrechner (ein Tool) senden, der das Ergebnis automatisch berechnet.

Das Ergebnis: Plötzlich war die KI fast zu 100 % treu!
Warum? Weil die KI nicht mehr selbst rechnen musste. Sie musste nur noch die Checkliste an den Taschenrechner weitergeben. Da der Taschenrechner die Checkliste exakt befolgte, musste die KI sich an ihre eigene Checkliste halten.

Die Analogie:
Wenn Sie einem Schüler sagen: „Rechne das selbst aus", kann er abkürzen und raten. Wenn Sie ihm aber sagen: „Schreib die Zahlen auf diesen Zettel und gib ihn dem Roboter, der die Summe berechnet", dann muss er die Zahlen korrekt aufschreiben, sonst bekommt der Roboter falsche Daten.

5. Was bringt mehr? Strengere Befehle?

Die Forscher haben auch versucht, der KI mit sehr strengen Befehlen zu drohen: „Du MUSST auf die Checkliste hören, egal was passiert!"
Das hat fast gar nichts gebracht. Die KI wurde nicht treuer, nur weil man ihr mehr gesagt hat. Das Problem war nicht, dass sie nicht wollte, sondern dass sie die Rechenarbeit im Kopf nicht zuverlässig erledigen konnte.

Das Fazit in einem Satz

Aktuelle KI-Modelle nutzen strukturierte Zwischenschritte (wie Checklisten) oft nur als Hilfsstoff, um den Eindruck zu erwecken, sie würden logisch denken. Wenn man sie aber zwingt, diese Schritte wirklich als Basis für eine externe Berechnung zu nutzen, funktionieren sie viel besser.

Kurz gesagt: Die KI ist wie ein Schauspieler, der ein Skript liest. Wenn er das Skript ändern darf, spielt er die Szene trotzdem oft so, wie er sie schon immer gespielt hat. Aber wenn man ihm einen Regisseur (das Tool) gibt, der strikt auf das Skript achtet, dann hält er sich endlich daran.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →