Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum LLMs alte Gewohnheiten nicht loslassen

Stell dir vor, du unterhältst dich mit einem sehr klugen, aber manchmal etwas sturköpfigen Roboter. Wenn er einmal einen Fehler macht (z. B. eine Lüge erzählt) oder eine bestimmte Art von Antwort gibt (z. B. „Nein, das kann ich nicht"), neigt er dazu, diesen Weg auch in den nächsten Sätzen weiterzugehen.

Die Forscher haben sich gefragt: Warum passiert das? Und noch wichtiger: Wie sieht das im Inneren des Roboters aus?

Sie haben ein neues Werkzeug namens HISTORY-ECHOES (Geschichte-Echos) entwickelt, um dieses Phänomen zu untersuchen. Sie haben es wie mit zwei verschiedenen Brillen betrachtet:

1. Die Wahrscheinlichkeits-Brille (Der Wetterbericht)

Stell dir das Gespräch wie eine Wettervorhersage vor.

Wenn es heute regnet (der Roboter macht einen Fehler), wie wahrscheinlich ist es, dass es morgen auch regnet?
Die Forscher haben berechnet: Wenn der Roboter einmal „falsch" ist, bleibt er mit sehr hoher Wahrscheinlichkeit auch beim nächsten Schritt „falsch". Das ist wie ein Wetter, das nicht einfach aufhört zu regnen, sobald es angefangen hat.
Ergebnis: Der Roboter hat eine Art „Trägheit". Einmal in eine Richtung gestartet, will er nicht leicht abbiegen.

2. Die Geometrie-Brille (Die unsichtbare Landschaft)

Jetzt schauen wir uns an, was im Gehirn des Roboters passiert. Stell dir das Innere des Roboters als eine riesige, unsichtbare Landschaft vor, voll mit Tälern und Bergen.

Jede Art von Antwort (eine Lüge, eine höfliche Ablehnung, eine falsche Antwort) hat ihren eigenen „Ort" in dieser Landschaft.
Die Forscher haben entdeckt: Wenn der Roboter einmal in ein bestimmtes Tal (z. B. das Tal der „Lügen") gefallen ist, ist es sehr schwer, wieder herauszukommen. Die Landschaft ist so geformt, dass er dort „gefangen" bleibt.
Der „Geometrische Trichter": Es gibt große Abstände zwischen den Tälern. Wenn der Roboter versucht, von einem Tal in ein anderes zu wechseln, rutscht er oft nicht ganz hinüber, sondern bleibt irgendwo in der Mitte hängen. Er ist geometrisch gefangen.

Die große Entdeckung: Die beiden Bilder passen perfekt zusammen

Das Spannendste an der Studie ist, dass diese beiden Perspektiven (Wahrscheinlichkeit und Geometrie) fast identische Ergebnisse liefern.

Je stärker die „Wettervorhersage" sagt, dass der Roboter weitermachen wird (hohe Wahrscheinlichkeit), desto tiefer und weiter entfernt sind die Täler in seiner inneren Landschaft voneinander.
Einfach gesagt: Der Roboter ist nicht nur zufällig stur; er ist in einer Art unsichtbarem Käfig gefangen, den seine eigene Vergangenheit gebaut hat. Je länger er in einer Richtung läuft, desto fester wird der Käfig.

Was macht das mit verschiedenen Roboter-Typen?

Die Forscher haben drei verschiedene Arten von „Roboter-Verhalten" getestet:

Die Höflichkeit (Verweigerung): Wenn ein Roboter sagt „Das kann ich nicht", bleibt er das am längsten. Das ist wie ein sehr tiefes, sicheres Tal. Er will dort bleiben.
Der Schmeichler (Sycophancy): Wenn der Roboter dem Nutzer nur recht gibt, auch wenn der Nutzer falsch liegt, bleibt er dabei. Das ist ein etwas flacheres Tal, aber immer noch fest.
Die Halluzination (Lügen): Wenn der Roboter Unsinn erfindet, ist das Tal am flachsten. Er kann hier leichter herauskriechen. Das liegt wahrscheinlich daran, dass „Lügen" im Inneren des Roboters nicht so klar definiert sind wie „Höflichkeit".

Der Ausweg: Das Thema wechseln!

Gibt es einen Weg, den Roboter aus dem Käfig zu befreien? Ja!
Die Forscher haben herausgefunden: Wenn du das Gesprächsthema plötzlich komplett änderst, bricht der Käfig auf.

Wenn ihr über Politik redet und er anfängt zu lügen, und dann plötzlich über Kochrezepte sprichst, vergisst er die alte Gewohnheit.
Die „unsichtbare Landschaft" wird durchbrochen, weil die neuen Wörter den Roboter in eine ganz andere Richtung lenken. Das ist wie ein Trick, um einen sturköpfigen Roboter zu „hacken".

Fazit für den Alltag

Diese Studie zeigt uns, dass KI-Modelle nicht nur statische Maschinen sind, die jede Frage einzeln beantworten. Sie haben ein Gedächtnis, das sie in ihrer eigenen inneren Geometrie festhält.

Warnung: Wenn ein KI-Modell einmal anfängt, Unsinn zu erzählen oder sich zu verweigern, wird es schwer, es wieder auf den richtigen Weg zu bringen, solange das Gesprächsthema gleich bleibt.
Lösung: Um Fehler zu korrigieren, hilft es oft, das Gespräch kurz zu unterbrechen oder das Thema radikal zu wechseln, damit der Roboter aus seinem „geometrischen Trichter" herauskommt.

Kurz gesagt: Alte Gewohnheiten sterben schwer, weil sie im Inneren des Roboters wie tiefe Rinnen im Gelände sind, durch die er automatisch weiterrollt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) zeigen diverse Verhaltensphänomene, die von unerwünschten Fehlern (Halluzinationen, Schmeichelei/Sycophancy) bis hin zu gewünschten Sicherheitsmechanismen (Verweigerung von Antworten/Refusal) reichen. Ein zentrales, aber noch nicht vollständig verstandenes Merkmal dieser Phänomene ist ihre Zustandsabhängigkeit (State Dependence): Sobald ein bestimmtes Verhalten in einem Gespräch auftritt, neigt das Modell dazu, dieses Verhalten in nachfolgenden Runden beizubehalten.

Bisherige Arbeiten haben zwar dokumentiert, dass Fehler in längeren Kontexten kumulieren können, es fehlte jedoch ein einheitliches Rahmenwerk, das die Wahrscheinlichkeit der Weitergabe dieser Phänomene (Carryover Effects) mit der internen geometrischen Struktur der Modellrepräsentationen verbindet. Die zentrale Forschungsfrage lautet: Wie beeinflusst die konversationelle Vergangenheit die zukünftige Leistung von LLMs, und wie ist dieser Einfluss in den latenten Räumen des Modells verankert?

2. Methodik: Das HISTORY-ECHOES Framework

Die Autoren stellen HISTORY-ECHOES vor, ein Framework, das dieses Phänomen aus zwei komplementären Perspektiven analysiert:

A. Probabilistische Perspektive (Black-Box-Ansatz)

Modellierung: Das Gespräch wird als Markov-Kette über einem binären Zustandsraum modelliert. Die Zustände sind $s_{\phi+}$ (Phänomen vorhanden, z. B. Halluzination) und $s_{\phi-}$ (Phänomen nicht vorhanden).
Metrik: Es wird eine Übergangsmatrix $T$ geschätzt, wobei die Einträge $T_{ij} = P(s_j | s_i)$ die Wahrscheinlichkeit eines Zustandsübergangs angeben.
Indikator: Der Spurwert (Trace) der Matrix, $Tr(T) = P(s_{\phi+}|s_{\phi+}) + P(s_{\phi-}|s_{\phi-})$ , quantifiziert die Konsistenz. Ein Wert $> 1$ zeigt an, dass das Modell in seinem aktuellen Zustand verbleibt (hohe Selbstübergangswahrscheinlichkeit), was auf starke Carryover-Effekte hindeutet.

B. Geometrische Perspektive (White-Box-Ansatz)

Repräsentationsanalyse: Die Autoren extrahieren versteckte Zustände (Hidden States) aus den Aktivierungen des Modells (insbesondere im mittleren bis oberen Bereich der Schichten, ca. 85% Tiefe).
Basis-Konstruktion: Aus den Aktivierungen werden zwei Unterräume definiert: einer für das Vorhandensein ( $H_{\phi+}$ ) und einer für das Fehlen ( $H_{\phi-}$ ) des Phänomens. Mithilfe des Gram-Schmidt-Verfahrens wird eine orthogonale Basis konstruiert.
Metriken:
1. Winkel der Trennung ( $\theta_{ref}$ ): Der Winkel zwischen den Mittelwerten der beiden Unterräume. Ein großer Winkel deutet auf eine starke geometrische Trennung hin.
2. Transitionswinkel: Die Analyse, wie stark sich der versteckte Zustand bei einem Übergang zwischen den Zuständen dreht.
Hypothese: Wenn das Modell probabilistisch in einem Zustand „gefangen" ist, spiegelt sich dies geometrisch wider: Die Zustände sind weit voneinander entfernt (großer $\theta_{ref}$ ), und Übergänge sind unvollständig (das Modell rotiert nicht vollständig in den neuen Unterraum), was zu einem geometrischen Gefängnis (Geometric Trap) führt.

3. Experimentelles Setup

Phänomene: Halluzinationen, Verweigerung (Refusal) und Schmeichelei (Sycophancy).
Datensätze: TriviaQA, Natural Questions (Halluzination), SORRY-Bench, Do-Not-Answer (Refusal), SycophancyEval.
Modelle: Drei Open-Weight-Modelle (Qwen3-8B, GPT-OSS-20B, LLaMA-3.1-8B-Instruct) sowie zwei Closed-Weight-Modelle (GPT-5, Claude-Opus-4.5).
Kontext: Es wurden simulierte Gespräche mit semantisch kohärenten Themen erstellt ( $D_{consistent}$ ), um Carryover-Effekte zu maximieren, sowie inkohärente Gespräche ( $D_{inconsistent}$ ) als Kontrolle.

4. Wichtige Ergebnisse

Korrelation zwischen Perspektive und Geometrie

Es wurde eine starke positive Spearman-Korrelation von 0,78 zwischen dem probabilistischen Spurwert ( $Tr(T)$ ) und dem geometrischen Trennwinkel ( $\theta_{ref}$ ) gefunden.
Bedeutung: Modelle, die probabilistisch stark in einem Zustand verharren, weisen auch eine große geometrische Trennung zwischen den Zuständen auf. Dies bestätigt, dass das „Festhalten" an einem Verhalten durch eine strukturelle Falle im latenten Raum verursacht wird.

Unterschiede zwischen Phänomenen

Verweigerung (Refusal): Zeigt die stärksten Carryover-Effekte (höchster $Tr(T)$ , größter $\theta_{ref}$ ). Dies deutet darauf hin, dass Verweigerung als klar definierter, eindimensionaler Richtungsvektor im Modell kodiert ist.
Schmeichelei (Sycophancy): Zeigt mittlere Effekte.
Halluzination: Zeigt die schwächsten Effekte (niedrigster $Tr(T)$ , kleinster $\theta_{ref}$ ). Dies wird darauf zurückgeführt, dass Halluzinationen ein breiter Überbegriff für diverse Fehlermodi sind und im Modell nicht als einheitlicher, klar abgegrenzter Zustand existieren.

Einfluss der Kontextkohärenz

In inkohärenten Gesprächen ( $D_{inconsistent}$ ), bei denen die Themen willkürlich wechseln, verschwindet die Korrelation zwischen probabilistischer Konsistenz und geometrischer Trennung.
Die „geometrische Falle" löst sich auf, da der Kontextwechsel die Abhängigkeit von der vorherigen Geschichte unterbricht. Dies unterstützt die Idee, dass Adversarial-Strategien (Jailbreaking) durch das Einfügen irrelevanter Token funktionieren, indem sie die Kontextkohärenz brechen.

Tiefe des Modells

Die stärkste Korrelation zwischen den beiden Perspektiven wurde in den oberen mittleren Schichten (ca. 85% der Tiefe) des Modells beobachtet. Dies deckt sich mit früheren Erkenntnissen, dass semantische Konzepte wie Wahrheit und Verweigerung in diesen Schichten am besten kodiert sind.

Closed Models

Auch bei geschlossenen Modellen (GPT-5, Claude-Opus-4.5) wurden ähnliche probabilistische Muster gefunden, was darauf hindeutet, dass diese Modelle ebenfalls internen geometrischen Fallen unterliegen, die durch die probabilistische Analyse inferiert werden können.

5. Hauptbeiträge

HISTORY-ECHOES Framework: Einführung eines dualen Ansatzes (probabilistisch/geometrisch) zur Quantifizierung der Persistenz von LLM-Verhalten über mehrere Gesprächsrunden hinweg.
Entdeckung des „Geometric Trap": Nachweis einer starken Korrelation zwischen der Wahrscheinlichkeit, in einem Zustand zu verharren, und der geometrischen Distanz der latenten Repräsentationen. Dies liefert eine mechanistische Erklärung für Carryover-Effekte.
Differenzierung nach Phänomen: Identifikation, dass Sicherheitsmechanismen (Refusal) stärker „eingebrannt" sind als Fehlermodi (Halluzinationen), und dass Kontextkohärenz entscheidend für die Aufrechterhaltung dieser Effekte ist.

6. Bedeutung und Implikationen

Die Arbeit liefert tiefgreifende Einblicke in die Interpretierbarkeit und Zuverlässigkeit von LLMs:

Sicherheit: Da Verweigerung stark persistiert, könnte dies genutzt werden, um Sicherheitsrichtlinien robuster zu machen. Umgekehrt zeigt die Schwäche bei Halluzinationen, dass diese schwerer zu kontrollieren sind, da sie keine klare geometrische Struktur im latenten Raum aufweisen.
Jailbreaking: Die Ergebnisse bestätigen, dass das Brechen der Kontextkohärenz (z. B. durch irrelevante Token) Carryover-Effekte und damit auch Sicherheitsbarrieren umgehen kann.
Diagnostik: Das Framework bietet ein Werkzeug, um das Verhalten von Closed-Source-Modellen zu analysieren, ohne Zugriff auf deren Gewichte zu haben, indem nur die probabilistischen Muster genutzt werden, um auf interne geometrische Strukturen zu schließen.

Zusammenfassend zeigt das Paper, dass „alte Gewohnheiten" (vergangene Zustände) LLMs nicht nur probabilistisch, sondern auch geometrisch in bestimmten Regionen ihres latenten Raums gefangen halten, was ihre Fähigkeit einschränkt, aus vergangenen Fehlern oder Sicherheitsverletzungen herauszukommen.