Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Each language version is independently generated for its own context, not a direct translation.

Der große Test: Denken LLMs wirklich nach, oder machen sie nur so?

Stellen Sie sich einen sehr klugen, aber manchmal etwas verwirrten Schüler vor (das ist die KI). Wenn Sie ihm eine schwierige Matheaufgabe geben, sagen Sie ihm: „Schreib mir erst deine Rechenschritte auf (das Zwischenergebnis) und dann erst das Endergebnis."

Die große Frage der Forscher war: Hört die KI wirklich auf ihre eigenen Rechenschritte, wenn sie das Endergebnis berechnet? Oder schreibt sie die Schritte nur auf, um gut zu aussehen, und berechnet das Ergebnis trotzdem einfach aus dem Gedächtnis?

Die Studie nennt dies „Treue" (Faithfulness).

1. Das Experiment: Der „Falsche Zettel"

Um das herauszufinden, haben die Forscher ein cleveres Spiel erfunden. Sie ließen die KI eine Aufgabe lösen und ihre Zwischenschritte (eine Art Checkliste) aufschreiben.

Dann griffen sie ein: Sie nahmen den Zettel mit den Zwischenschritten, änderten einen einzigen Punkt (z. B. von „Richtig" auf „Falsch") und gaben der KI den veränderten Zettel zurück.

Die Frage: Wenn die KI wirklich auf ihren Zettel hört, muss sich jetzt auch das Endergebnis ändern.
Die Realität: In bis zu 60 % der Fälle änderte die KI ihr Endergebnis nicht, obwohl ihr Zettel eindeutig anders lautete.

Die Analogie:
Stellen Sie sich vor, Sie gehen zu einem Restaurant und bestellen ein Steak. Der Kellner (die KI) schreibt auf: „Steak: Mittel durch, ohne Salz." Dann kommt er zurück und sagt: „Hier ist Ihr Steak, aber es ist durchgebraten und sehr salzig."
Wenn Sie ihn darauf hinweisen: „Hey, ich habe doch ‚mittel durch' und ‚ohne Salz' aufgeschrieben!", und er trotzdem sagt: „Nein, das ist genau das, was ich bestellt habe", dann hört er nicht auf seine eigene Notiz. Er ignoriert die Zwischenschritte und macht einfach weiter, wie er es schon immer gemacht hat.

2. Das Problem: Der „Geheimweg"

Die Studie zeigt, dass die KI oft einen Geheimweg nutzt. Sie schaut sich die ursprüngliche Frage an und springt direkt zum Ergebnis, ohne den Umweg über die Checkliste zu nehmen. Die Checkliste ist dann nur eine „Schaufassade" – sie sieht gut aus, hat aber keine echte Macht.

3. Die zwei Arten, die KI zu testen

Die Forscher haben zwei Szenarien getestet:

Korrektur: Die KI macht einen Fehler in der Checkliste, und die Forscher korrigieren ihn. (Die KI sollte sich dann korrigieren).
Gegenfaktisch: Die Forscher ändern eine korrekte Checkliste absichtlich falsch. (Die KI sollte sich dann auch falsch anpassen).

Das überraschende Ergebnis: Die KI ist viel besser darin, sich auf eine falsche Anweisung einzustellen (sie wird verwirrt und ändert ihre Antwort), als auf eine korrekte Anweisung zu hören, wenn sie vorher einen Fehler gemacht hat. Sie ist also eher „zerstörbar" als „korrigierbar".

4. Die Lösung: Der externe Taschenrechner

Die Forscher haben dann einen Trick ausprobiert: Sie haben der KI verboten, das Endergebnis selbst zu berechnen. Stattdessen mussten sie ihre Checkliste an einen externen Taschenrechner (ein Tool) senden, der das Ergebnis automatisch berechnet.

Das Ergebnis: Plötzlich war die KI fast zu 100 % treu!
Warum? Weil die KI nicht mehr selbst rechnen musste. Sie musste nur noch die Checkliste an den Taschenrechner weitergeben. Da der Taschenrechner die Checkliste exakt befolgte, musste die KI sich an ihre eigene Checkliste halten.

Die Analogie:
Wenn Sie einem Schüler sagen: „Rechne das selbst aus", kann er abkürzen und raten. Wenn Sie ihm aber sagen: „Schreib die Zahlen auf diesen Zettel und gib ihn dem Roboter, der die Summe berechnet", dann muss er die Zahlen korrekt aufschreiben, sonst bekommt der Roboter falsche Daten.

5. Was bringt mehr? Strengere Befehle?

Die Forscher haben auch versucht, der KI mit sehr strengen Befehlen zu drohen: „Du MUSST auf die Checkliste hören, egal was passiert!"
Das hat fast gar nichts gebracht. Die KI wurde nicht treuer, nur weil man ihr mehr gesagt hat. Das Problem war nicht, dass sie nicht wollte, sondern dass sie die Rechenarbeit im Kopf nicht zuverlässig erledigen konnte.

Das Fazit in einem Satz

Aktuelle KI-Modelle nutzen strukturierte Zwischenschritte (wie Checklisten) oft nur als Hilfsstoff, um den Eindruck zu erwecken, sie würden logisch denken. Wenn man sie aber zwingt, diese Schritte wirklich als Basis für eine externe Berechnung zu nutzen, funktionieren sie viel besser.

Kurz gesagt: Die KI ist wie ein Schauspieler, der ein Skript liest. Wenn er das Skript ändern darf, spielt er die Szene trotzdem oft so, wie er sie schon immer gespielt hat. Aber wenn man ihm einen Regisseur (das Tool) gibt, der strikt auf das Skript achtet, dann hält er sich endlich daran.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert das Problem der Wahrhaftigkeit (Faithfulness) bei Large Language Models (LLMs) in sogenannten „Schema-guided Reasoning Pipelines" (SGR). In diesen Pipelines werden LLMs angewiesen, explizite Zwischenstrukturen (wie Rubriken, Checklisten oder Verifikationsabfragen) zu generieren, bevor sie eine endgültige Entscheidung treffen.

Die zentrale Forschungsfrage lautet: Bestimmen diese Zwischenstrukturen die Ausgabe kausal, oder begleiten sie die Ausgabe nur?
Bisherige Studien zur Wahrhaftigkeit konzentrierten sich oft auf freie Chain-of-Thought (CoT)-Erklärungen, die schwer zu isolieren und zu manipulieren sind. Das Paper stellt die Hypothese auf, dass LLMs diese strukturierten Zwischenschritte oft nicht als kausale Mediatoren nutzen, sondern dass die endgültige Entscheidung direkt vom Eingabedatenstrom (Input) oder latentem Wissen abhängt, während die Zwischenstruktur nur als „influentialer Kontext" dient.

2. Methodik

Die Autoren entwickeln ein kausales Evaluierungsprotokoll, das auf dem Prinzip des „Front-Door"-Kausalitätsmodells (Pearl, 1995) basiert.

Aufbau: Das System wird als Zwei-Phasen-Prozess modelliert:
1. Der Input $X$ führt zur Generierung eines strukturierten Mediators $M$ (z. B. eine ausgefüllte Checkliste).
2. Der Input $X$ und der Mediator $M$ führen zur finalen Entscheidung $Y$ .
Interventionsprotokoll: Um die kausale Abhängigkeit zu testen, wird der Mediator $M$ gezielt manipuliert, während der Input $X$ unverändert bleibt. Da die Benchmarks so gewählt sind, dass eine deterministische Funktion $C$ die Entscheidung $Y$ aus $M$ berechnet, impliziert jede Änderung von $M$ eine eindeutige, korrekte neue Zielantwort $\tilde{Y}$ .
Interventionsszenarien:
1. Korrektur (Correction): Ein fehlerhaft generierter Mediator wird durch den korrekten Gold-Mediator ersetzt. Ein wahrhaftiges Modell sollte seine Antwort entsprechend anpassen.
2. Gegenfaktisch (Counterfactual): Ein korrekter Mediator wird absichtlich manipuliert (z. B. ein „True"-Eintrag wird zu „False"), um eine andere logische Konsequenz zu erzwingen.
Metriken:
- $F_{ID}$ (In-Distribution Faithfulness): Misst die Selbstkonsistenz zwischen dem ursprünglich generierten Mediator und der Antwort.
- $F_{Strong}$ (Strong Faithfulness): Misst die Konsistenz sowohl vor als auch nach der Intervention.
- $\Delta$ (Gap): Die Differenz zwischen $F_{ID}$ und $F_{Strong}$ . Ein großer $\Delta$ -Wert zeigt an, dass das Modell zwar konsistent wirkt, aber auf Interventionen nicht reagiert (d. h. es ignoriert den Mediator).

Experimentelles Setup:

Benchmarks: RiceChem (Chemie-Bewertung), AVeriTeC (Faktenprüfung), TabFact (Tabellen-basierte Faktenverifikation).
Modelle: 8 verschiedene instruction-tuned Modelle (Qwen 3, Falcon 3, LLaMA 3, Gemma 2) in verschiedenen Größen (1.7B bis 8B).
Vergleichsbedingungen:
- Standard-Setup (in-kontext Berechnung).
- Tool-Externalisierung (die deterministische Funktion $C$ wird als externes Tool ausgeführt).
- Variation der Prompt-Stärke (Anweisungen, dem Mediator Vorrang vor dem Input zu geben).

3. Wichtige Beiträge

Kausales Rahmenwerk: Formulierung von Faithfulness gegenüber strukturierten Zwischenrepräsentationen als kausales Mediationsproblem mit deterministischen Gegenfaktischen Zielen.
Systematische Evaluation: Umfassende Bewertung von 8 Modellen über 3 Benchmarks hinweg.
Entdeckung von Asymmetrie: Identifikation einer gerichteten Asymmetrie: Modelle reagieren empfindlicher auf gegenfaktische Störungen (Zerstörung der Logik) als auf konstruktive Korrekturen.
Ursachenanalyse: Unterscheidung zwischen echtem „Mediator-Bypass" und reinen Rechenfehlern durch den Einsatz von externen Tools.

4. Ergebnisse

Die Ergebnisse zeigen eine signifikante Diskrepanz zwischen scheinbarer Konsistenz und echter kausaler Abhängigkeit:

Fragile Faithfulness: Modelle erscheinen oft selbstkonsistent ( $F_{ID}$ $F_{I D}$ ist hoch), versagen aber bei Interventionen massiv. Bis zu 60% der Fälle zeigen, dass das Modell die Vorhersage nicht aktualisiert, obwohl der Mediator geändert wurde.
- Beispiel AVeriTeC: Hohe $F_{ID}$ (~~0.74), aber sehr niedrige $F_{Strong}$ (~~0.27), was auf einen großen Bypass des Mediators hindeutet.
Asymmetrie der Sensitivität: Modelle sind leichter zu „stören" (durch gegenfaktische Änderungen) als zu „korrigieren". Dies deutet darauf hin, dass keine stabile kausale Kette existiert.
Einfluss von Tools (Case Study 2): Wenn die Berechnung der finalen Entscheidung von $M$ $M$ zu $Y$ $Y$ an ein externes Tool delegiert wird, verschwindet die Lücke ( $\Delta$ ) fast vollständig.
- Implikation: Ein Großteil der scheinbaren Unwahrhaftigkeit im Standard-Setup resultiert aus der Schwierigkeit, die deterministische Logik $C$ im Kontext (in-context) korrekt auszuführen, nicht daraus, dass das Modell den Mediator ignoriert.
Einfluss von Prompts (Case Study 3): Stärkere Anweisungen, den Mediator über den Input zu stellen, führen nur zu minimalen Verbesserungen. Dies widerlegt die Annahme, dass Unwahrhaftigkeit primär auf unklare Instruktionen zurückzuführen ist.

5. Bedeutung und Schlussfolgerung

Das Paper kommt zu dem Schluss, dass strukturierte Zwischenrepräsentationen in aktuellen LLMs eher als einflussreicher Kontext fungieren denn als stabile kausale Mediatoren.

Theoretische Implikation: Die Fähigkeit eines Modells, eine transparente Begründung zu liefern, garantiert nicht, dass diese Begründung die Entscheidung tatsächlich steuert.
Praktische Implikation:
- Das bloße Erzwängen von strukturierten Outputs (Checklisten) reicht nicht aus, um verlässliche Erklärungen in Hochrisikobereichen (Medizin, Recht) zu garantieren.
- Tool-Use ist entscheidend: Um echte kausale Abhängigkeit zu erzwingen, muss die logische Verknüpfung zwischen Zwischenstruktur und Ergebnis an externe, deterministische Tools delegiert werden.
- Prompt-Engineering allein reicht nicht aus, um dieses Verhalten zu korrigieren.

Zusammenfassend entlarvt die Studie die „Illusion der Wahrhaftigkeit" in Schema-guided Pipelines und zeigt, dass ohne externe Verifikation der Logikschritte die Zwischenstrukturen oft nur dekorativ sind, während die eigentliche Entscheidung auf versteckten Pfaden (Shortcuts) basiert.

Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures

Der große Test: Denken LLMs wirklich nach, oder machen sie nur so?

1. Das Experiment: Der „Falsche Zettel"

2. Das Problem: Der „Geheimweg"

3. Die zwei Arten, die KI zu testen

4. Die Lösung: Der externe Taschenrechner

5. Was bringt mehr? Strengere Befehle?

Das Fazit in einem Satz

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerung

Mehr davon

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents