Markovian Generation Chains in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un ami très intelligent, mais un peu étrange, appelé LLM (un grand modèle de langage). Vous lui donnez une phrase, il la réécrit pour vous. Ensuite, vous prenez sa nouvelle version, vous la lui donnez à nouveau, et il la réécrit encore. Et vous recommencez, encore et encore.

C'est exactement ce que les auteurs de cette étude ont fait. Ils ont créé une sorte de « jeu du téléphone » infini avec l'intelligence artificielle pour voir ce qui arrive au texte après des dizaines de tours.

Voici l'explication simple de leur découverte, avec quelques images pour mieux comprendre :

1. Le concept : La chaîne de génération

Les chercheurs appellent ce processus une « chaîne de génération markovienne ».

L'image : Imaginez une chaîne de montage. Chaque ouvrier (le modèle) ne regarde que la pièce qui arrive sur le tapis roulant (la phrase précédente). Il ne se souvient pas de ce qui s'est passé il y a 10 minutes, ni de qui a commencé la chaîne. Il ne fait que transformer ce qu'il voit maintenant.
Le but : Voir si, en répétant ce processus, le texte devient de plus en plus bizarre, de plus en plus ennuyeux, ou s'il change constamment.

2. Deux mondes différents : Le robot précis vs Le joueur créatif

L'étude montre que le résultat dépend entièrement de la façon dont on demande au modèle de travailler. Ils ont testé deux modes :

A. Le mode « Greedy » (Le robot précis)

Imaginez un robot qui doit toujours choisir le mot le plus probable à chaque fois.

L'analogie : C'est comme un train qui roule sur des rails fixes. Il ne peut pas dévier.
Ce qui se passe : Très vite, le texte se bloque. Il entre dans une boucle infinie.
- Exemple : La phrase devient « Le chat dort », puis « Le chat dort », puis « Le chat dort »... ou alors elle oscille entre deux versions très proches comme un métronome : « Le chat dort » -> « Le félin repose » -> « Le chat dort » -> « Le félin repose ».
Le résultat : La diversité meurt rapidement. Le texte devient une boucle répétitive.

B. Le mode « Sampling » (Le joueur créatif)

Ici, on dit au modèle : « Choisis un mot, mais tu as le droit de prendre des risques et d'essayer des choses moins probables ». C'est comme ajouter un peu de désordre ou de température.

L'analogie : C'est comme un promeneur en forêt qui a le droit de s'éloigner du chemin principal pour explorer des sentiers secondaires.
Ce qui se passe : Le texte continue de changer pendant beaucoup plus longtemps. Il ne se répète pas tout de suite. Il peut inventer de nouvelles façons de dire les choses.
Le résultat : On obtient beaucoup plus de phrases différentes, mais attention : le texte peut aussi commencer à dériver et perdre son sens original, un peu comme une histoire racontée de bouche à oreille qui finit par devenir méconnaissable.

3. Les découvertes clés

La longueur compte : Plus la phrase de départ est longue et complexe, plus le modèle a de « terrain de jeu » pour varier ses réponses avant de se répéter. C'est comme si un labyrinthe plus grand permettait de se perdre plus longtemps avant de trouver la sortie (ou de revenir au point de départ).
La traduction en boucle : Ils ont aussi testé la traduction : Anglais -> Français -> Anglais -> Français...
- Avec un traducteur automatique classique (très rigide), le texte revient presque identique à chaque fois.
- Avec un LLM (plus créatif), le texte change à chaque tour, accumulant de petites erreurs ou de nouvelles nuances, un peu comme une version déformée d'une chanson qui change de paroles à chaque reprise.
Ce n'est pas un effondrement : Souvent, on entend dire que si on entraîne des IA avec du texte généré par des IA, tout va s'effondrer (comme un château de cartes). Ici, les chercheurs disent : « Non, ce n'est pas la même chose ». Ce qu'ils observent, c'est un effondrement à l'usage (quand on utilise l'IA), pas pendant l'entraînement. C'est un problème de dynamique de conversation, pas de manque de données.

En résumé

Cette étude nous met en garde : si nous laissons les IA se parler entre elles, ou si nous les utilisons pour réécrire un texte encore et encore, deux choses peuvent arriver :

Le texte se fige (s'il est trop rigide) et devient une boucle ennuyeuse.
Le texte dérive (s'il est trop créatif) et finit par dire quelque chose de très différent du message de départ.

C'est une invitation à faire attention à la façon dont nous utilisons ces outils en boucle, car le texte ne reste pas toujours fidèle à lui-même, un peu comme une photo qu'on photocopie cent fois : à la fin, l'image est soit floue, soit totalement différente de l'original.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article de prépublication « Markovian Generation Chains in Large Language Models » en français.

1. Problématique

L'utilisation croissante des grands modèles de langage (LLM) pour des tâches de réécriture, de traduction et de génération de contenu soulève une question fondamentale : comment les textes évoluent-ils lorsqu'ils sont traités de manière itérative par des LLM ?

Dans de nombreux scénarios réels (traduction aller-retour, reformulation répétée, agents multi-agents), le texte généré par un modèle est réinjecté comme entrée pour une nouvelle inférence, sans mémoire des étapes précédentes. Ce processus, souvent appelé « jeu du téléphone » ou « boucle de rétroaction », peut entraîner une dégradation de l'information, une perte de diversité ou une convergence vers des états stables. L'objectif de l'article est de formaliser mathématiquement ce phénomène et d'analyser ses dynamiques.

2. Méthodologie : Chaînes de Génération Markoviennes

Les auteurs proposent un cadre formel appelé Chaînes de Génération Markoviennes pour modéliser ce processus itératif.

Formalisation Markovienne : Chaque étape $t$ de l'itération est définie comme une transformation stochastique $T_{M,\rho,d}$ qui prend en entrée uniquement le texte de l'étape précédente $s^{(t)}$ et un modèle de prompt fixe $\rho$ , sans tenir compte de l'historique complet.
$s^{(t+1)} \sim T_{M,\rho,d}(\cdot | s^{(t)})$
Cela définit un noyau de Markov homogène sur l'espace des états (les phrases).
Unité d'analyse : Contrairement aux travaux précédents se concentrant sur les tokens, cette étude traite la phrase entière comme l'unité d'état. Cela permet de modéliser le processus comme une chaîne de Markov discrète sur un espace d'états fini (mais extrêmement grand).
Expériences menées :
- Reformulation itérative : Le modèle réécrit sa propre sortie avec la même instruction.
- Traduction aller-retour (Round-trip) : Traduction de l'anglais vers une langue intermédiaire puis retour à l'anglais, répété plusieurs fois.
- Configurations de décodage : Comparaison entre le décodage glouton (greedy, déterministe) et le décodage basé sur l'échantillonnage (sampling, avec température et top-p).
Données et Modèles : Utilisation de trois corpus (BookSum, ScriptBase, News2024) et de plusieurs modèles (Mistral-7B, Llama-3.1-8B, Qwen2.5-7B, GPT-4o-mini).

3. Contributions Clés

Cadre théorique : Introduction du concept de « Chaînes de Génération Markoviennes » pour analyser l'inférence itérative, distinct du « effondrement de modèle » (model collapse) qui concerne l'entraînement sur des données synthétiques.
Analyse des régimes de convergence : Démonstration que le processus itératif conduit à deux comportements principaux :
- Entrée rapide dans un ensemble récurrent : Convergence vers un point fixe ou un cycle court (souvent observé avec le décodage glouton).
- Phase transitoire prolongée : Production continue de nouvelles phrases sur un horizon fini (observé avec l'échantillonnage).
Outils d'évaluation : Définition de métriques spécifiques pour quantifier la diversité (nombre de phrases uniques, temps de première récurrence) et la dérive sémantique (METEOR, ROUGE, BLEU).
Distinction avec l'effondrement de modèle : Clarification que les dynamiques observées ici sont dues aux propriétés du noyau de transition (inférence) et non à la mise à jour des paramètres du modèle (entraînement).

4. Résultats Principaux

A. Impact du décodage sur la diversité

Décodage Glouton (Greedy) : Les trajectoires convergent très rapidement (souvent en moins de 5 itérations) vers de petits ensembles récurrents (points fixes ou cycles de longueur 2). La diversité des phrases s'effondre rapidement.
- Exemple : Un modèle peut alterner indéfiniment entre deux paraphrases quasi-identiques.
Décodage par Échantillonnage (Sampling) : Introduit de la stochasticité qui prolonge la phase transitoire. De nombreuses chaînes ne montrent aucune répétition exacte sur 50 itérations. La diversité des paraphrases générées est significativement plus élevée, bien qu'elle varie selon le modèle et le domaine.

B. Sensibilité aux paramètres et aux entrées

Température : Une température plus élevée augmente la probabilité de sélectionner des tokens moins probables, retardant l'entrée dans les cycles et augmentant la diversité.
Longueur de la phrase initiale : Il existe une corrélation positive (bien que variable selon les modèles) entre la longueur de la phrase de départ et le nombre de phrases distinctes générées. Les phrases plus longues offrent un « voisinage paraphrastique » plus vaste.

C. Traduction Aller-Retour

Les LLMs avec échantillonnage montrent une variabilité de surface importante lors des traductions itératives, contrairement aux services de traduction automatique (comme Google Translate v3) qui se comportent de manière quasi-déterministe.
Même avec des prompts visant à préserver le sens, une distorsion cumulative (dérive) peut survenir.

D. Analyse au niveau des paragraphes

Même si la récurrence exacte au niveau du paragraphe entier est rare sur 50 itérations, une récurrence au niveau des phrases persiste. Les phrases individuelles à l'intérieur d'un paragraphe tendent à se stabiliser ou à osciller, indiquant que les attracteurs locaux existent même dans des structures plus complexes.

5. Signification et Implications

Systèmes Multi-Agents : Ces résultats sont cruciaux pour comprendre les interactions entre plusieurs agents LLM. Si un agent réécrit le travail d'un autre, le système peut rapidement converger vers un état stérile (peu d'information nouvelle) ou diverger de manière imprévisible selon la configuration de décodage.
Préservation de l'information : L'étude met en garde contre l'utilisation de boucles de rétroaction itératives pour des tâches de préservation stricte du sens, car la dérive sémantique est inévitable, même avec des prompts rigoureux.
Diversité vs Stabilité : Il existe un compromis fondamental. Le décodage glouton offre de la stabilité mais tue la diversité (convergence rapide). L'échantillonnage préserve la diversité mais introduit du bruit et une instabilité potentielle.
Distinction conceptuelle : L'article établit une distinction claire entre l'effondrement de modèle (dû à l'entraînement sur des données générées) et la dégradation par inférence itérative (dû à la dynamique du noyau de Markov), nécessitant des outils d'analyse différents.

En conclusion, ce papier fournit une lentille mathématique rigoureuse pour comprendre comment les textes se transforment lorsqu'ils circulent à travers des modèles de langage, soulignant l'importance critique des paramètres de décodage et de la structure du prompt dans la gestion de la diversité et de la fidélité sémantique dans les pipelines automatisés.