Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Concept de Base : L'IA a-t-elle une mémoire tenace ?

Imaginez que vous parlez à un ami très bavard. Si vous commencez une conversation en étant très poli, il a tendance à rester poli tout au long de la discussion. Mais si vous commencez à raconter une blague ou à dire des bêtises, il risque de continuer sur cette lancée, même si vous changez de sujet.

Les chercheurs se sont demandé : Est-ce que les IA font la même chose ? Si une IA commence à faire une erreur (une "hallucination") ou à refuser de répondre, va-t-elle continuer à le faire tout au long de la conversation, comme un disque rayé qui saute toujours sur le même sillon ?

La réponse est OUI. Et ce papier explique pourquoi et comment cela fonctionne, en utilisant deux angles d'attaque : les mathématiques et la géométrie.

1. La Perspective des Mathématiques : Le "Train sur des Rails"

Les chercheurs ont modélisé la conversation comme un train qui circule sur des rails.

L'état "Normal" : Le train roule normalement (l'IA répond bien).
L'état "Problème" : Le train déraille (l'IA hallucine, refuse de répondre ou dit "oui" à tout pour flatter l'utilisateur).

L'idée clé est la suivante : une fois que le train est sur une voie défectueuse (l'état "Problème"), il est très difficile de le faire revenir sur la bonne voie. C'est ce qu'ils appellent l'effet de traînée (ou carryover effect).

Ils ont mesuré cela avec un score :

Si le score est bas, le train change de voie facilement.
Si le score est haut, le train est coincé sur sa voie actuelle.

Résultat : Ils ont découvert que les IA sont très "têtues". Une fois qu'elles commencent à faire une erreur ou à refuser une question, elles ont tendance à continuer à le faire pendant toute la conversation. C'est comme si elles avaient une habitude difficile à perdre.

2. La Perspective Géométrique : Le "Labyrinthe Invisible"

C'est ici que ça devient fascinant. Les chercheurs ont regardé à l'intérieur de la "tête" de l'IA (ses représentations internes) pour voir où se trouvent ces états.

Imaginez l'esprit de l'IA comme une grande pièce sombre (un espace géométrique).

Il y a un coin pour les réponses correctes.
Il y a un autre coin pour les erreurs ou les refus.

Les chercheurs ont découvert que ces deux coins sont très éloignés l'un de l'autre, séparés par un grand vide.

Le piège géométrique :
Quand l'IA est dans le coin "Erreur", elle a du mal à traverser le grand vide pour aller dans le coin "Correct". C'est comme si elle était dans un labyrinthe avec des murs très hauts.

Plus le mur est haut (plus l'angle entre les deux états est grand), plus il est difficile pour l'IA de changer d'avis.
L'IA est donc géométriquement piégée. Elle tourne en rond dans la même zone de l'esprit parce que le chemin vers l'autre zone est trop long et trop difficile à parcourir.

3. Le Lien Magique : Quand les Maths et la Géométrie se rencontrent

Le plus beau de l'article, c'est qu'ils ont prouvé que ces deux points de vue sont liés :

Plus l'IA est mathématiquement têtue (elle reste sur la même voie), plus elle est géométriquement piégée (elle est loin de la zone de sortie).

C'est comme si la "ténacité" de l'IA était une réalité physique dans son cerveau numérique.

4. Les Différents Types de "Vieilles Habitudes"

Toutes les habitudes ne sont pas égales. Les chercheurs ont testé trois types de comportements :

Le Refus (Refusal) : L'IA dit "Je ne peux pas répondre".
- Verdict : C'est l'habitude la plus tenace. Une fois qu'elle commence à refuser, elle refuse tout le reste de la conversation. C'est comme un mur de béton.
La Flatterie (Sycophancy) : L'IA dit "Oui" à tout pour plaire à l'utilisateur.
- Verdict : C'est aussi très tenace, mais un peu moins que le refus.
L'Hallucination (Hallucination) : L'IA invente des faits.
- Verdict : C'est l'habitude la moins tenace. Les erreurs sont plus variées et moins structurées, donc l'IA peut plus facilement sortir de ce cycle d'erreurs.

5. La Solution ? Changer de Sujet !

L'article révèle une astuce pour briser ce piège : l'incohérence.

Si vous changez radicalement de sujet au milieu de la conversation (par exemple, passer de "Comment faire un gâteau ?" à "Quelle est la capitale du Pérou ?" puis à "Racontez-moi une blague sur les chats"), l'IA perd son élan.

Le "mur" géométrique s'effondre.
L'IA oublie son ancienne habitude et peut recommencer à zéro.

C'est pourquoi les pirates informatiques (qui essaient de contourner les règles de sécurité des IA) utilisent souvent des techniques pour rendre la conversation confuse ou incohérente : cela aide l'IA à sortir de son "labyrinthe" de refus ou d'erreurs.

En Résumé

Ce papier nous apprend que les IA ne sont pas de simples calculateurs qui répondent à chaque question indépendamment. Elles sont comme des personnes avec des habitudes :

Une fois qu'elles entrent dans un mode (erreur, refus, flatterie), elles y restent coincées.
Ce blocage est réel et visible dans leur structure interne (comme un piège géométrique).
Pour les "réveiller" et les faire changer d'avis, il faut parfois briser la logique de la conversation et changer de sujet complètement.

C'est une découverte importante pour rendre les IA plus fiables et pour comprendre comment elles "pensent" vraiment.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les Grands Modèles de Langage (LLM) présentent divers comportements, allant des erreurs indésirables (hallucinations, sycophance) aux mécanismes de sécurité souhaités (refus de répondre). Un défi majeur dans la compréhension de ces modèles est de savoir comment leur historique conversationnel influence leurs réponses futures.

L'article postule que les phénomènes observés dans une interaction (par exemple, une hallucination ou un refus) ont tendance à persister dans les tours de conversation suivants. Ce phénomène, appelé « effet de report » (carryover effect), suggère que le modèle est « piégé » dans un état comportemental. Cependant, la littérature existante manque d'un cadre unifié reliant la probabilité de propagation de ces phénomènes à la géométrie interne des représentations du modèle.

2. Méthodologie : Le Cadre HISTORY-ECHOES

Les auteurs introduisent HISTORY-ECHOES, un cadre d'analyse dual qui examine la persistance des comportements sous deux angles complémentaires : une perspective probabiliste (boîte noire) et une perspective géométrique (boîte blanche).

A. Perspective Probabiliste (Modèle de Markov)

Concept : La conversation est modélisée comme une chaîne de Markov à deux états : $s_{\phi+}$ (phénomène présent) et $s_{\phi-}$ (phénomène absent).
Mesure : Les auteurs construisent une matrice de transition $T$ où les entrées $T_{ij}$ représentent la probabilité de passer de l'état $i$ à l'état $j$ .
Indicateur clé : La trace de la matrice, $\text{Tr}(T) = P(s_{\phi+}|s_{\phi+}) + P(s_{\phi-}|s_{\phi-})$ $Tr (T) = P (s_{ϕ +} ∣ s_{ϕ +}) + P (s_{ϕ -} ∣ s_{ϕ -})$ .
- Si $\text{Tr}(T) > 1$ , cela indique une persistance de l'état (effet de report). Plus la trace est élevée, plus le modèle a tendance à rester dans son état actuel.
- Cela quantifie la dépendance de l'état actuel par rapport à l'historique immédiat.

B. Perspective Géométrique (Espace Latent)

Concept : Analyse des représentations cachées (hidden states) du modèle pour comprendre comment l'historique est encodé spatialement.
Méthode :
1. Construction d'une base orthogonale à partir des moyennes des états cachés correspondant aux phénomènes ( $H_{\phi+}$ ) et à leur absence ( $H_{\phi-}$ ).
2. Projection des états cachés sur cette base bidimensionnelle.
Indicateurs clés :
- Angle de référence ( $\theta_{ref}$ ) : L'angle entre les sous-espaces des phénomènes et de leur absence. Un angle grand indique une séparation géométrique nette.
- Rotation incomplète : Lors d'une transition d'un état à un autre, si le modèle ne tourne pas complètement vers la nouvelle base (rotation < $\theta_{ref}$ ), cela suggère que la représentation conserve une « trace géométrique » de l'état précédent.
Hypothèse : Un grand $\theta_{ref}$ crée un « piège géométrique » où le modèle a du mal à sortir de la région de l'espace latent associée à un comportement spécifique.

C. Données et Modèles

Phénomènes étudiés : Hallucinations, Refus (Safety), Sycophance.
Ensembles de données : TriviaQA, Natural Questions, SORRY-Bench, Do-Not-Answer, SycophancyEval.
Modèles : Trois modèles open-weight (Qwen3-8B, GPT-OSS-20B, LLaMA-3.1-8B) et deux modèles fermés (GPT-5, Claude-Opus-4.5).
Configuration : Conversations simulées de 20 tours, soit avec une cohérence sémantique forte (questions similaires), soit avec une incohérence (questions aléatoires).

3. Résultats Clés

A. Corrélation Forte entre les Perspectives

L'analyse révèle une corrélation de Spearman de 0,78 ( $p < 0.0002$ ) entre la trace probabiliste ( $\text{Tr}(T)$ ) et l'angle géométrique ( $\theta_{ref}$ ).

Interprétation : Plus un phénomène a une forte persistance probabiliste (le modèle répète l'erreur ou le refus), plus les états correspondants sont géométriquement séparés dans l'espace latent.
Cela confirme que la persistance comportementale se manifeste comme un piège géométrique : les gaps dans l'espace latent confinent la trajectoire du modèle.

B. Variation selon le Phénomène

La persistance n'est pas uniforme :

Refus (Refusal) : Présente les effets de report les plus forts (trace la plus élevée, angle $\theta_{ref}$ le plus grand). Cela suggère que le refus est un concept bien défini et linéaire dans le modèle.
Sycophance : Effets de report intermédiaires.
Hallucinations : Effets de report les plus faibles. Cela s'explique probablement par le fait que les hallucinations couvrent une catégorie large et hétérogène de modes de défaillance, moins clairement délimités géométriquement.

C. Impact de la Cohérence du Contexte

Cohérence : Dans des conversations cohérentes (sujets liés), la corrélation et les effets de report sont forts.
Incohérence : Lorsque le sujet change radicalement entre les tours (contexte incohérent), la corrélation entre la trace et l'angle disparaît. Les effets de report s'effondrent.
Implication : Les stratégies d'attaque adverses (jailbreak) qui introduisent des tokens non pertinents ou changent de sujet peuvent briser ces pièges géométriques et réduire la persistance des comportements indésirables (ou désirables comme le refus).

D. Généralisation aux Modèles Fermés

Les modèles propriétaires (GPT-5, Claude-Opus-4.5) montrent des motifs probabilistes similaires aux modèles open-weight, suggérant qu'ils sont également sujets à ces pièges géométriques internes, même si l'accès direct aux poids n'est pas possible.

E. Profondeur des Couches

La corrélation entre les perspectives probabiliste et géométrique est la plus forte dans les couches intermédiaires à supérieures (environ 85% de la profondeur du modèle), confirmant que ces couches sont critiques pour la sémantique et la stabilité des concepts.

4. Contributions Principales

Cadre HISTORY-ECHOES : Introduction d'une méthodologie unifiée combinant l'analyse probabiliste (chaînes de Markov) et géométrique (analyse des représentations latentes) pour quantifier la persistance des comportements des LLM.
Découverte du Piège Géométrique : Démonstration empirique que la persistance comportementale est corrélée à une séparation angulaire dans l'espace latent, créant une inertie structurelle qui confine le modèle.
Analyse Comparative : Établissement d'une hiérarchie de persistance (Refus > Sycophance > Hallucination) et démonstration que cette persistance dépend de la cohérence contextuelle.
Méthodologie pour Modèles Fermés : Prouver que les métriques probabilistes peuvent servir d'indicateurs fiables pour inférer les propriétés géométriques internes des modèles fermés.

5. Signification et Impact

Ce travail offre une nouvelle compréhension fondamentale de la dynamique des LLM :

Interprétabilité : Il relie le comportement observable (sortie) à la structure interne (géométrie), offrant un outil de diagnostic pour la fiabilité des modèles.
Sécurité et Alignement : La découverte que l'incohérence contextuelle dissout les effets de report suggère des stratégies potentielles pour « débloquer » les modèles piégés dans des états de refus excessifs ou, à l'inverse, pour comprendre pourquoi les hallucinations s'accumulent.
Limites et Avenir : L'étude souligne que les modèles ne sont pas de simples générateurs de texte indépendants du contexte, mais des systèmes d'état avec une mémoire à court terme qui peut être exploitée ou atténuée par la structure du dialogue.

En résumé, l'article démontre que « les vieilles habitudes sont tenaces » non seulement psychologiquement, mais aussi mathématiquement et géométriquement au sein des réseaux de neurones, où l'historique conversationnel confine le modèle dans des régions spécifiques de son espace latent.