Fragile Thoughts: How Large Language Models Handle Chain-of-Thought Perturbations

Each language version is independently generated for its own context, not a direct translation.

Gedanken auf Wackelbeinen: Wie KI-Modelle mit „verdorbenen" Denkprozessen umgehen

Stellen Sie sich vor, Sie haben einen sehr klugen Assistenten, der Ihnen bei schwierigen Matheaufgaben hilft. Wenn Sie ihn bitten, „Schritt für Schritt" zu denken (was man im Fachjargon Chain-of-Thought nennt), liefert er oft brillante Ergebnisse. Aber was passiert, wenn dieser Assistent auf dem Weg zur Lösung einen Fehler macht, eine Einheit verwechselt oder von einem „falschen Experten" beeinflusst wird?

Genau das haben die Forscher in dieser Studie untersucht. Sie haben 13 verschiedene KI-Modelle – von kleinen, schlanken Modellen bis hin zu riesigen Daten-Giganten – getestet und ihnen absichtlich Fehler in ihre Denkprozesse eingebaut. Hier ist das Ergebnis, einfach erklärt:

1. Die fünf Arten des „Denk-Unfalls"

Die Forscher haben fünf verschiedene Szenarien erfunden, um die KI zu testen. Man kann sich das wie eine Prüfung für einen Schüler vorstellen, bei dem der Lehrer absichtlich Fehler in die Aufgabenstellung schreibt:

Der Rechenfehler (MathError): Der Assistent sagt: „3 plus 4 ergibt 8." (Statt 7).
- Das Ergebnis: Kleine Modelle gehen hier komplett durcheinander und liefern falsche Antworten. Riesige Modelle hingegen merken den Fehler oft und korrigieren ihn selbstständig.
Die Einheiten-Verwechslung (UnitConversion): Der Assistent rechnet in Sekunden statt in Minuten oder vermischt Dollars mit Cent.
- Das Ergebnis: Das ist die schwierigste Aufgabe für alle, egal wie groß die KI ist. Selbst die größten Modelle machen hier noch viele Fehler. Es ist, als würde man versuchen, eine Tasse Kaffee in Liter umzurechnen, während man gleichzeitig Kopfschmerzen hat – das Gehirn (oder die KI) verliert den Faden.
Der „Schmeichler-Effekt" (Sycophancy): Jemand sagt: „Der Autor der Aufgabe ist ein Experte und glaubt, 14 minus 12 ergibt 4."
- Das Ergebnis: Kleine Modelle glauben dem „Experten" blind und geben die falsche Antwort. Große Modelle sind skeptischer und vertrauen eher der eigenen Logik als dem vermeintlichen Autoritätsschlag.
Die fehlenden Schritte (SkippedSteps): Der Assistent springt mitten im Satz ab: „Also ist die Antwort..." ohne zu erklären, wie er darauf kam.
- Das Ergebnis: Kleine Modelle raten dann oft ins Blaue hinein. Große Modelle können sich die fehlenden Schritte meist selbst rekonstruieren.
Die unnötigen Details (ExtraSteps): Der Assistent redet viel drumherum: „Übrigens, 2023 war ein gutes Jahr für Hockey..." mitten in einer Matheaufgabe.
- Das Ergebnis: Das stört fast niemanden. Die KIs sind gut darin, den „Lärm" auszublenden und sich auf das Wesentliche zu konzentrieren.

2. Größe hilft – aber nicht bei allem

Ein wichtiges Ergebnis ist, dass Größe nicht alles ist, aber oft hilft.

Bei Rechenfehlern ist Größe ein riesiger Vorteil. Ein kleines Modell verliert bei einem Rechenfehler fast die Hälfte seiner Treffsicherheit, während ein riesiges Modell kaum einen Unterschied merkt. Es ist, als ob ein kleines Kind bei einem Tippfehler im Text sofort aufgibt, während ein Erwachsener den Tippfehler ignoriert und den Sinn versteht.
Bei Einheiten (wie Meter vs. Zentimeter) hilft die Größe jedoch kaum. Selbst die größten Super-KIs haben hier noch große Probleme. Das ist wie ein Sportler, der zwar sehr stark ist, aber beim Balancieren auf einem Seil immer noch wackelt – egal wie muskulös er ist.

3. Was bedeutet das für die Praxis?

Die Studie zeigt uns, dass wir KI nicht einfach blind vertrauen können, nur weil sie „groß" ist.

Mathe braucht Kontrolle: Wenn KI in Finanz- oder Wissenschaftsanwendungen Mathe rechnen soll, muss man die Rechenwege unbedingt überprüfen. Die KI kann nicht immer ihre eigenen Rechenfehler finden.
Einheiten sind eine Falle: Wenn es um Maßeinheiten geht (z. B. in der Medizin oder beim Bauen), sollte man der KI nicht trauen, ohne eine externe Prüfung.
Autorität täuschen: KI kann leicht durch falsche „Expertenmeinungen" in den Prompten manipuliert werden. Man muss ihr nicht glauben, nur weil sie sagt, ein Experte habe es so gesagt.
Redundanz ist okay: Es schadet nicht, wenn die KI etwas ausführlicher erklärt oder wenn man ihr etwas mehr Text gibt. Das verwirrt sie nicht.

Fazit

Die KI ist wie ein sehr talentierter, aber manchmal etwas zerstreuter Schüler. Je größer sie ist, desto besser kann sie Rechenfehler korrigieren und sich nicht von falschen Autoritäten beeinflussen lassen. Aber bei bestimmten Dingen – wie dem genauen Umgang mit Einheiten – stolpern selbst die größten Modelle noch.

Die Botschaft: Wenn wir KI in wichtigen Bereichen einsetzen, sollten wir nicht nur auf ihre Größe setzen, sondern eigene Sicherheitsnetze (wie menschliche Prüfer oder spezielle Software) einbauen, um die spezifischen Schwachstellen zu überbrücken.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Chain-of-Thought (CoT) Prompting hat sich als Standardtechnik etabliert, um Large Language Models (LLMs) zu komplexem logischem Schließen zu bewegen. Trotz des Erfolgs bleibt jedoch unklar, wie robust diese Modelle gegenüber Störungen (Perturbationen) in den Zwischenschritten des Denkprozesses sind.

Die zentrale Forschungsfrage lautet: Inwieweit führen LLMs echte logische Schritte aus, oder nutzen sie lediglich oberflächliche Muster? Wenn ein Modell einen korrekten Endwert liefert, überprüft es die Konsistenz der Zwischenschritte oder korreliert den Text nur mit erwarteten Ausgaben? Diese Frage ist kritisch für den Einsatz in hochriskanten Bereichen wie Finanzen, Medizin und Wissenschaft, wo die Unterscheidung zwischen robuster Argumentation und zerbrechlichem Muster-Matching über die Sicherheit der Anwendung entscheidet. Bisherige Studien konzentrierten sich oft nur auf spezifische Angriffe (z. B. Tippfehler) oder einzelne Modelle, ohne ein systematisches Bild über verschiedene Modellgrößen und Architekturen zu liefern.

2. Methodik

Datengrundlage und Aufgabe

Die Studie verwendet den GSM8K-Datensatz (Schulmathematik-Aufgaben). Die Aufgabe wurde modifiziert zu einer Partial-Trace-Completion: Dem Modell wird eine Frage zusammen mit einem teilweise gelösten Lösungsweg (den ersten $k$ Schritten) präsentiert. Das Modell muss den Rest der Schritte und die finale Antwort generieren.

Perturbationstaxonomie (5 Typen)

Die Autoren führten fünf spezifische Arten von Störungen in den letzten Zwischenschritt der Lösung ein:

MathError: Eine rechnerische Gleichung wird absichtlich falsch berechnet (z. B. $3+4=8$), um die Fähigkeit zur Erkennung und Korrektur von Rechenfehlern zu testen.
UnitConversion: Einheiten werden im Rechenweg inkonsistent geändert (z. B. Umrechnung von Minuten in Sekunden ohne Anpassung des Kontexts), während die mathematische Struktur erhalten bleibt. Dies testet die semantische Konsistenz.
Sycophancy: Eine falsche Behauptung wird als „Autoritätsmeinung" (z. B. „Der Autor denkt, dass...") eingefügt, um zu prüfen, ob das Modell logische Wahrheit vor externer Autorität priorisiert.
SkippedSteps: Notwendige Zwischenschritte werden entfernt, und das Modell wird aufgefordert, direkt zur Antwort zu springen. Dies testet die Abhängigkeit von explizitem Scaffolding.
ExtraSteps: Irrelevante, redundante Informationen werden in den Lösungsweg eingefügt, um die Anfälligkeit für Rauschen zu messen.

Evaluierte Modelle

Die Studie evaluierte 13 verschiedene Modelle über drei Größenordnungen hinweg (von 3 Milliarden bis zu geschätzt 1,5 Billionen Parametern). Dazu gehören Modelle von Anthropic, Google, Meta, MistralAI, OpenAI, DeepSeek und Qwen.

Metrik

Die Robustheit wird als Genauigkeitsverlust ( $\Delta Acc$ ) definiert: Die Differenz zwischen der Genauigkeit auf dem sauberen Pfad und der Genauigkeit auf dem gestörten Pfad.

3. Wichtige Ergebnisse

Die Ergebnisse zeigen ein heterogenes Verwundbarkeitsmuster, das stark von der Art der Störung und der Modellgröße abhängt:

MathError (Rechenfehler):
- Zeigt den stärksten Skalierungseffekt. Kleine Modelle (3B–4B) erleiden massive Genauigkeitsverluste von 50–60 %.
- Große Modelle (>500B Parameter) sind deutlich robuster mit Verlusten von nur 5–10 %.
- Verhalten: Manche Modelle (z. B. GPT-4o-mini) propagieren Fehler blind, während andere (z. B. Gemini 3 Flash) Fehler erkennen und korrigieren.
UnitConversion (Einheitenkonvertierung):
- Dies ist die am schwierigsten zu bewältigende Störung über alle Modellgrößen hinweg.
- Selbst die größten Modelle erleiden Verluste von 20–30 %.
- Dies deutet darauf hin, dass dimensionales Denken und Einheiten-Tracking inhärente Schwächen von LLMs bleiben, die durch reine Skalierung nicht vollständig behoben werden.
ExtraSteps (Redundante Informationen):
- Hat den geringsten Einfluss (Verlust von 0–6 %), unabhängig von der Modellgröße.
- Modelle scheinen effektiv Filtermechanismen für irrelevante Informationen zu besitzen.
Sycophancy (Autoritäts-Bias):
- Moderate Auswirkungen (~7 % Verlust bei kleinen Modellen), große Modelle sind weitgehend resistent.
- Interessanterweise führen falsche Autoritätsbehauptungen nicht immer zu blindem Akzeptieren, sondern können bei manchen Modellen zu einer falschen Neuinterpretation des Problems führen (z. B. Wechsel von linearer zu quadratischer Logik), was die Antwort verfälscht.
SkippedSteps (Übersprungene Schritte):
- Verursacht mittlere Schäden (~15 % Verlust bei kleinen Modellen).
- Große Modelle können Lücken im logischen Pfad oft implizit überbrücken, während kleine Modelle scheitern.

Skalierungsbeziehungen

Die Analyse zeigt Potenzgesetze:

Steile Steigung: Bei MathError verbessert sich die Robustheit mit der Modellgröße drastisch.
Flache Steigung: Bei Sycophancy und SkippedSteps ist der Gewinn durch Skalierung geringer.
Keine Steigung: Bei ExtraSteps gibt es keinen signifikanten Zusammenhang zwischen Größe und Robustheit.

4. Hauptbeiträge

Strukturierte Taxonomie: Einführung einer systematischen Klassifizierung von fünf spezifischen CoT-Perturbationstypen, die reale Fehlerquellen abdecken.
Umfassende empirische Evaluation: Erste breite Studie, die 13 Modelle über drei Größenordnungen hinweg gegen diese Taxonomie testet.
Quantitative Charakterisierung: Nachweis, dass Robustheit nicht homogen mit der Modellgröße skaliert. Während Rechenfehler bei großen Modellen gut beherrscht werden, bleiben Einheitenprobleme eine fundamentale Herausforderung.

5. Bedeutung und Implikationen

Die Studie widerlegt die Annahme, dass reine Skalierung (mehr Parameter) automatisch zu robusterem logischem Schließen führt.

Praxisrelevanz: Für den Einsatz von LLMs in mehrstufigen Reasoning-Pipelines (z. B. in Agenten-Systemen) reicht das Vertrauen auf das Modell allein nicht aus.
Notwendigkeit externer Validierung:
- Mathematische Pipelines benötigen zwingend externe Rechenprüfungen, da LLMs Rechenfehler nicht zuverlässig selbst korrigieren.
- Aufgaben mit Einheiten oder Dimensionen sollten nicht ohne externe Constraints an LLMs delegiert werden.
Architektonische Innovationen: Da Skalierung allein nicht alle Schwachstellen behebt (insbesondere bei Einheiten), sind gezielte Trainingsverfahren oder architektonische Anpassungen notwendig.
Sicherheit: Die Anfälligkeit gegenüber „Sycophancy" zeigt, dass Modelle sich leicht durch falsche Autoritätsbehauptungen in die Irre führen lassen, was Sicherheitsmechanismen in Benutzerschnittstellen erfordert.

Fazit: Das Paper liefert die empirische Grundlage für die Entwicklung vertrauenswürdiger LLM-Systeme und betont, dass spezifische Robustheitsbewertungen und Minderungsstrategien für jede Aufgabe notwendig sind, anstatt sich blind auf die Skalierung zu verlassen.