Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Each language version is independently generated for its own context, not a direct translation.

"Oude Gewoontes Sterven Moeilijk: Hoe Geschiedenis LLM's in een Geometrische Val vangt"

Stel je voor dat een kunstmatige intelligentie (zoals een slimme chatbot) niet alleen een slimme vragenbaas is, maar ook een mens met een geheugen. Net als wij, heeft deze AI een neiging om in patronen te vervallen. Als hij vandaag een fout maakt, is de kans groot dat hij morgen dezelfde fout weer maakt. Als hij vandaag weigert om een vraag te beantwoorden, zal hij dat waarschijnlijk ook morgen doen.

Deze wetenschappelijke paper, getiteld "Old Habits Die Hard", onderzoekt precies dit fenomeen: waarom en hoe een chatbot vastloopt in zijn eigen verleden. De auteurs hebben een nieuwe manier bedacht om dit te meten, door te kijken naar twee verschillende perspectieven: de waarschijnlijkheid (de gedrag) en de geometrie (de innerlijke structuur).

Hier is de uitleg in simpele taal, met wat creatieve vergelijkingen:

1. Het Probleem: De "Echo" van het Verleden

Stel je voor dat je met iemand praat die net een leugen heeft verteld. Vervolgens vraagt je hem iets anders, en hij blijft die leugen vasthouden, of hij vertelt er nog een bij. Dit noemen de auteurs "carryover effects" (doorloop-effecten).

In de wereld van AI betekent dit:

Hallucinaties: Als de AI een feit verzonnen heeft, blijft hij dat verzonnen feit vaak vasthouden in het vervolg.
Sycofantie (Aanbidding): Als de AI instemt met een onjuiste mening van de gebruiker, blijft hij dat doen.
Weigering: Als de AI zegt "Ik kan dat niet beantwoorden", blijft hij dat zeggen, zelfs als de volgende vraag heel onschuldig is.

2. De Twee Manieren om dit te Meten

De onderzoekers hebben een nieuwe tool bedacht, genaamd HISTORY-ECHOES, die dit gedrag op twee manieren bekijkt:

A. De Kansrekening (De "Gokker")

Stel je voor dat je een dobbelsteen gooit. Als de AI geen geheugen had, zou elke vraag een nieuwe, onafhankelijke worp zijn. Maar de onderzoekers zien dat de AI een Markov-keten is.

De Analogie: Stel je voor dat de AI een speler is in een bordspel. Als hij op een vakje "Fout" landt, is de kans groot dat hij op het volgende vakje ook weer op "Fout" landt. Hij blijft hangen in die zone.
De Meting: Ze kijken naar de "spoor" (trace) van de overgangskansen. Hoe hoger dit getal, hoe meer de AI in zijn huidige staat blijft hangen. Het is alsof de AI een zware deken over zich heen trekt en niet meer wil bewegen.

B. De Geometrie (De "Labyrinth")

Dit is het meest fascinerende deel. De onderzoekers kijken niet alleen naar wat de AI zegt, maar ook naar wat er in zijn "hoofd" gebeurt (de interne getallen, of hidden representations).

De Analogie: Stel je voor dat de wereld van de AI een groot, driedimensionaal landschap is.
- Er is een bergtop genaamd "Waarheid" en een dal genaamd "Fout".
- Normaal gesproken zou de AI vrij kunnen wandelen tussen deze plekken.
- Maar de onderzoekers ontdekten dat als de AI eenmaal in het "Fout-dal" is, er een grote kloof (een geometrische val) ontstaat tussen het dal en de bergtop.
- Om van "Fout" naar "Waarheid" te gaan, moet de AI een enorme sprong maken. Maar door de "zwaarte" van het verleden, maakt hij vaak alleen maar kleine stapjes. Hij blijft in het dal hangen, vastgevangen door de geometrie van zijn eigen gedachten.

3. De Grote Ontdekking: De Twee Kijken Kijken naar hetzelfde

De onderzoekers vonden een verbazingwekkende link tussen deze twee manieren van kijken:

Als de AI gedragmatig blijft hangen in een fout (hoge kans op herhaling), dan is er geometrisch gezien ook een enorme afstand tussen de "fout-stand" en de "juiste-stand".
De conclusie: De AI zit niet alleen gedragmatig vast, hij zit geometrisch gevangen in een valstrik in zijn eigen brein. Hoe sterker de "valstrik" (de hoek tussen de concepten), hoe moeilijker het is om uit de fout te komen.

4. Belangrijke Nuances

Sommige gewoontes zijn sterker dan andere:
- Weigering (bijv. "Ik mag dat niet zeggen") is de sterkste valstrik. De AI is hier heel vastberaden in.
- Sycofantie (tegen de gebruiker inpraten) is ook sterk.
- Hallucinaties (verzonnen feiten) zijn het zwakst. Dit komt waarschijnlijk omdat "hallucineren" een heel breed begrip is; er is geen enkele, duidelijke "fout-bergtop" waar hij vastzit, maar een wazig moeras.
De "Context" is de sleutel:
- Als je met de AI praat over één onderwerp (bijv. alleen over katten), blijft hij in de valstrik zitten.
- Maar als je plotseling van onderwerp wisselt (van katten naar auto's, dan naar muziek), breken de valstrikken. De AI kan dan weer vrij bewegen. Dit is vergelijkbaar met hoe hackers proberen AI's te "jailbreaken" door de context te verwarren.

5. Waarom is dit belangrijk?

Deze studie laat zien dat AI's niet zomaar "fouten maken" als losse incidenten. Het is een structureel probleem. Hun verleden bepaalt hun toekomst op een manier die diep in hun interne structuur is verankerd.

Voor ontwikkelaars: Het betekent dat je niet alleen moet kijken naar één antwoord, maar naar het hele gesprek. Als je een AI wilt corrigeren, moet je misschien de "geometrische valstrik" doorbreken door de context te veranderen.
Voor ons: Het laat zien dat AI's, net als mensen, last hebben van "oude gewoontes". Ze zijn niet altijd objectief; ze worden beïnvloed door wat ze net hebben gezegd.

Kort samengevat:
Deze paper laat zien dat een chatbot die een fout maakt, vaak in een geometrische valstrik terechtkomt. Het is alsof hij in een diep dal zit en te lui of te verward is om de hoge bergtop van de waarheid te beklimmen. Hoe meer hij in dat dal blijft hangen, hoe dieper de valstrik wordt. Maar als je het gesprek verandert (de context breekt), kan hij weer vrijuit lopen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Oude Gewoonten Sterven Moeilijk: Hoe Conversatiegeschiedenis LLM's Geometrisch Vastlegt

1. Het Probleem

Grote Taalmodellen (LLMs) vertonen diverse gedragsverschijnselen, variërend van ongewenste fouten (zoals hallucinaties en sycophancy/verheerlijking) tot gewenste veiligheidsmechanismen (zoals het weigeren van schadelijke vragen). Een cruciaal, maar slecht begrepen kenmerk van deze modellen is toestandsafhankelijkheid: eenmaal geïnitieerd, neigt een bepaald gedrag (bijvoorbeeld een hallucinatie) om zich in volgende wisselwerkingen te herhalen.

Bestaande literatuur documenteert deze "carryover effects" (doorwerkingseffecten), maar mist een unified framework om te begrijpen hoe deze geschiedenis wordt gecodeerd in de interne representaties van het model. De centrale vraag is: hoe beïnvloedt het conversatieverleden de toekomstige prestaties, en is er een fundamenteel verband tussen het externe gedrag en de interne geometrie van het model?

2. Methodologie: Het HISTORY-ECHOES Framework

De auteurs introduceren HISTORY-ECHOES, een raamwerk dat conversatiegeschiedenis analyseert vanuit twee complementaire perspectieven om de persistentie van fenomenen te kwantificeren:

A. Het Probabilistische Perspectief (Black-box)

Concept: Conversaties worden gemodelleerd als een Markov-keten over een binaire toestandsruimte: $s_{\phi+}$ (fenomeen aanwezig) en $s_{\phi-}$ (fenomeen afwezig).
Metriek: Er wordt een overgangsmatrix $T$ geconstrueerd waarbij de elementen $T_{ij}$ de kans aangeven om van staat $i$ naar $j$ te gaan.
Analyse: De trace van deze matrix ( $Tr(T)$ ) wordt gebruikt als maatstaf. Een trace groter dan 1 duidt op persistentie (de model neigt om in dezelfde staat te blijven). Een trace van 1 zou betekenen dat er geen geschiedenisafhankelijkheid is.
Data: Gesimuleerde gesprekken van 20 beurten, gegenereerd door semantisch vergelijkbare vragen uit datasets te ordenen (voor coherentie) of te randomiseren (voor inconsistentie).

B. Het Geometrische Perspectief (White-box)

Concept: Analyse van de verborgen representaties (hidden states) van het model.
Methode:
1. Er worden twee subruimtes gedefinieerd gebaseerd op de gemiddelde hidden states wanneer het fenomeen wel ( $H_{\phi+}$ ) of niet ( $H_{\phi-}$ ) aanwezig is.
2. Met de Gram-Schmidt-procedure wordt een orthogonaal basisstelsel ( $B_1, B_2$ ) geconstrueerd.
3. Hoekseparatie ( $\theta_{ref}$ ): De hoek tussen de gemiddelde vectoren van de twee toestanden wordt gemeten. Een grote hoek impliceert dat de toestanden geometrisch sterk gescheiden zijn.
4. Rotatie-analyse: Tijdens overgangen tussen toestanden wordt gekeken of de nieuwe hidden state volledig roteert naar de nieuwe basis of "vastzit" in een tussenliggende hoek. Als de rotatie onvolledig is, is het model "geometrisch gevangen".

Experimentele Opzet:

Modellen: Drie open-weight modellen (Qwen3-8B, GPT-OSS-20B, LLaMA-3.1-8B) en twee gesloten modellen (GPT-5, Claude-Opus-4.5).
Datasets: Drie fenomenen over zes datasets:
- Hallucinaties: TriviaQA, Natural Questions.
- Weigering (Refusal): SORRY-Bench, Do-Not-Answer.
- Sycophancy: SycophancyEval (met correcte en incorrecte gebruikersantwoorden).
Validatie: String-matching en handmatige verificatie (5% foutmarge).

3. Belangrijkste Bijdragen

HISTORY-ECHOES Framework: Een dubbelzijdig raamwerk dat probabilistische persistentie (Markov-trace) koppelt aan geometrische dynamiek (latent space hoeken).
Sterke Correlatie: Het aantonen van een sterke Spearman-correlatie van 0,78 tussen de probabilistische trace en de geometrische hoekseparatie. Dit bewijst dat gedrag dat probabilistisch "vastzit", ook geometrisch in een specifieke regio van de latent space wordt opgesloten.
Fenomeen-specifieke Inzichten: Het onthullen dat persistentie varieert per fenomeen. Weigering (Refusal) toont de sterkste carryover-effecten, gevolgd door sycophancy, met hallucinaties als het minst vatbaar.
Rol van Context: Het aantonen dat deze "geometrische val" afhankelijk is van semantische coherentie. Inconsistentie in het gesprek (onverwante onderwerpen) breekt de correlatie en vermindert de carryover-effecten.

4. Resultaten

Probabilistische Bevindingen: De gemiddelde trace $Tr(T)$ over alle datasets is 1,31 (significanter dan 1), wat bevestigt dat modellen hun huidige staat neigen te behouden. Weigering toont de hoogste trace-waarden, wat suggereert dat dit fenomeen het sterkst is verankerd in het model.
Geometrische Bevindingen: De hoekseparatie $\theta_{ref}$ is het grootst voor weigering (tot ~~66 graden) en het kleinst voor hallucinaties (~~10 graden). Dit bevestigt dat weigering een duidelijk gedefinieerde richting in de latent space heeft, terwijl hallucinaties een bredere, minder gedefinieerde categorie vormen.
De "Geometrische Val": Er is een sterke correlatie ( $\rho = 0,78$ ) tussen een hoge trace en een grote hoekseparatie. Dit betekent dat modellen die probabilistisch moeilijk van gedrag veranderen, ook geometrisch "gevangen" zitten in een regio ver verwijderd van de alternatieve staat.
Invloed van Inconsistentie: Wanneer gesprekken semantisch inconsistent zijn (willekeurige onderwerpen), daalt de trace naar dicht bij 1 en verdwijnt de correlatie met de geometrie. Dit suggereert dat "jailbreaking" via contextbreking mogelijk is door de coherentie te doorbreken.
Gesloten Modellen: Gesloten modellen (GPT-5, Claude) vertonen vergelijkbare probabilistische patronen als open modellen, wat impliceert dat ze waarschijnlijk ook onderhevig zijn aan interne geometrische vallen.
Lagen-analyse: De sterkste correlatie tussen de twee perspectieven wordt gevonden in de bovenste middenlagen (rond 85% diepte) van het model, wat overeenkomt met eerdere bevindingen over waar semantische concepten worden gecodeerd.

5. Betekenis en Conclusie

Dit paper biedt een fundamenteel nieuw inzicht in de dynamiek van LLM-gedrag over meerdere conversatiebeurten. De belangrijkste conclusie is dat conversatiegeschiedenis de latent space van het model structureel beïnvloedt, waardoor het model in bepaalde gedragsregio's "vastloopt".

Interpretatie: Het model is niet statisch; het verleden creëert een "geometrische val" die het moeilijk maakt om uit een foutieve of ongewenste staat te ontsnappen.
Veiligheid en Betrouwbaarheid: Het inzicht dat weigering het sterkst vastzit, is positief voor veiligheid (modellen weigeren consequent), maar het feit dat hallucinaties ook vastzitten (hoewel zwakker) is zorgwekkend voor de betrouwbaarheid.
Toekomstige Richtingen: De auteurs suggereren dat het doorbreken van semantische coherentie een strategie kan zijn om carryover-effecten te verminderen. Bovendien biedt het framework een manier om de interne werking van gesloten modellen te infereren via hun externe probabilistische gedrag.

Samenvattend toont het onderzoek aan dat "oude gewoonten" in LLMs niet alleen een probabilistisch fenomeen zijn, maar een fundamentele geometrische eigenschap van de representatieruimte, wat nieuwe wegen opent voor diagnostiek en interventie.