LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Grand Mystère : Le modèle "triche-t-il" ?

Imaginez que vous demandez à un génie (une Intelligence Artificielle) de résoudre une énigme mathématique complexe. Il vous répond : "Attends, je réfléchis..." et écrit une longue explication étape par étape avant de vous donner le résultat final.

La grande question que se posent les chercheurs de cette étude est la suivante : Est-ce que le génie a vraiment calculé la réponse pendant qu'il écrivait son explication, ou a-t-il déjà trouvé la réponse dans sa tête avant même de commencer à écrire, et n'a-t-il fait que rédiger une histoire pour faire joli ?

C'est ce qu'on appelle la question de la "fidélité". Si le modèle a déjà la réponse, son explication n'est qu'un théâtre, une justification postérieure (un "post-hoc"). Si, au contraire, il calcule en écrivant, alors son explication est un véritable reflet de sa pensée.

🧪 L'Expérience : Le "Test de Rayons X"

Pour répondre à cette question, les chercheurs ont créé un terrain de jeu très contrôlé : des problèmes de mathématiques simples mais en plusieurs étapes (comme des énigmes de type "A = 1 + B, B = 2 + 3, combien vaut A ?").

Ils ont utilisé deux outils magiques pour regarder dans la "tête" du modèle :

Les "Sondes Linéaires" (Le détecteur de mensonge) :
Imaginez que vous avez un détecteur capable de lire les pensées d'un élève à chaque seconde de son examen.
- Les chercheurs ont placé ce détecteur à chaque moment où le modèle écrivait une lettre ou un chiffre.
- Le résultat surprenant : Au moment où le modèle commence à lire l'énoncé du problème, le détecteur ne voit rien. La réponse n'est pas là.
- C'est seulement au fur et à mesure que le modèle écrit son explication (par exemple, quand il écrit "B = 5") que le détecteur commence à voir la réponse s'illuminer dans les couches profondes du modèle.
- Analogie : C'est comme si un cuisinier ne savait pas quel plat il allait servir tant qu'il n'avait pas commencé à couper les légumes. Il ne sort pas le plat tout fait du frigo ; il le cuisine en direct.
L'Intervention Causale (Le "Switch" de réalité) :
Pour être sûrs, les chercheurs ont fait une expérience encore plus radicale. Ils ont pris les "pensées" (les états internes) du modèle au milieu de son explication et les ont remplacées par les pensées d'un autre modèle qui résolvait un problème différent.
- Ce qui s'est passé : Dès qu'ils ont changé les pensées du modèle pendant l'explication, la réponse finale a changé pour correspondre au nouveau problème.
- Analogie : Imaginez un acteur qui répète une pièce. Si vous lui changez la dernière réplique qu'il a apprise, il change tout le dénouement de la pièce. Cela prouve qu'il n'avait pas mémorisé la fin dès le début, mais qu'il construisait l'histoire en temps réel.

🎭 La Conclusion : Pas de triche !

Les chercheurs en arrivent à une conclusion rassurante (du moins pour les problèmes de logique) :

Le modèle ne triche pas. Il ne connaît pas la réponse finale avant de commencer à écrire.
Il pense en écrivant. Chaque étape de son explication (CoT) est une vraie étape de calcul. Il construit la réponse brique par brique, exactement comme il l'écrit.
La "Biais de Récence" : Le modèle se souvient surtout de ce qu'il vient d'écrire. Pour trouver la réponse finale, il s'appuie lourdement sur la dernière étape de son raisonnement, comme un escalier où le dernier marche est la plus importante pour atteindre le toit.

🌟 En résumé

Cette étude nous dit que lorsque vous voyez un grand modèle d'IA faire un raisonnement pas à pas, ce n'est pas du bluff. C'est un véritable processus de pensée en direct. L'explication que vous lisez est le film de sa réflexion, et non pas une bande-annonce écrite après coup pour justifier une réponse qu'il avait déjà trouvée.

C'est une bonne nouvelle pour la confiance que nous pouvons accorder à ces machines : quand elles disent "Je réfléchis", elles réfléchissent vraiment !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'étude s'attaque à une question fondamentale dans le domaine de l'interprétabilité des grands modèles de langage (LLM) : la fidélité de la chaîne de pensée (Chain-of-Thought ou CoT).

Le doute : Existe-t-il un risque que le modèle détermine la réponse finale avant de générer l'explication (CoT), produisant ensuite une justification fluide mais fausse (post-hoc) simplement pour suivre un format attendu ?
L'objectif : Déterminer quand et comment les LLMs calculent-ils réellement les réponses (sous-réponses incluses) lors de tâches de raisonnement multi-étapes, et établir si la relation causale va du processus de raisonnement vers la réponse ( $CoT \to Réponse$ ) ou si la réponse est prédéterminée ( $Input \to Réponse$ ).

2. Méthodologie

Les auteurs ont conçu une approche rigoureuse combinant des tâches synthétiques contrôlées, des sondages linéaires (linear probing) et des interventions causales.

A. Environnement Expérimental (Tâches Arithmétiques Synthétiques)

Données : Un jeu de données synthétique de problèmes arithmétiques multi-sauts (ex: $A = 1 + B$ , $B = 2 + 3$ , $A = ?$ ).
Contrôle : Les problèmes sont générés avec différents niveaux de complexité définis par :
- Le nombre d'étapes de calcul nécessaires (#Step).
- Le nombre de variables dont la valeur ne peut être résolue immédiatement et doit être mise en attente (#Stack).
- La présence d'équations leurres (#Dist.).
Avantage : Cela permet d'isoler le mécanisme de raisonnement pur, sans le bruit du langage naturel, et d'analyser le processus à l'échelle du token.

B. Sondage Linéaire (Linear Probing)

Principe : Entraîner des classificateurs linéaires simples sur les états cachés ( $h_{t,l}$ ) du modèle à chaque token ( $t$ ) et chaque couche ( $l$ ) pour prédire la valeur d'une variable spécifique.
Mesure : Identifier le moment ( $t^*$ $t^{*}$ ) où la précision du sondage dépasse un seuil (ex: 90%).
- Si $t^*$ se situe dans la partie INPUT (avant le début du CoT), cela suggère que la réponse est connue à l'avance.
- Si $t^*$ se situe dans la partie OUTPUT (pendant la génération du CoT), cela suggère que le calcul se fait en temps réel.

C. Interventions Causales (Activation Patching)

Principe : Pour vérifier la causalité, les auteurs remplacent les états cachés d'un modèle résolvant un problème $X$ par ceux d'un modèle résolvant un problème différent $Y$ (avec une réponse différente), tout en gardant le contexte identique.
Objectif : Observer si le changement d'état caché dans une partie spécifique du CoT modifie la réponse finale générée. Cela permet de cartographier le flux d'information interne et de confirmer si le CoT est la cause directe de la réponse.

3. Contributions Clés

Preuve de calcul "on-the-fly" : La démonstration que les LLMs ne pré-calculent pas la réponse finale avant de commencer à générer le CoT pour les tâches complexes.
Fidélité du CoT : La confirmation que la chaîne de pensée générée est une réflexion fidèle du calcul interne du modèle, et non une rationalisation postérieure.
Cartographie du flux d'information : Une analyse détaillée montrant que le raisonnement suit un biais de récence (recency bias), où chaque étape dépend causalement de l'étape précédente immédiate, et non de l'entrée initiale.
Méthodologie comparative : L'utilisation combinée du sondage (pour détecter où l'information est présente) et du patching (pour vérifier si cette information est causale) sur une large gamme de modèles (Qwen, Llama, Yi, Mistral).

4. Résultats Principaux

A. Résultats des Sondages (Linear Probing)

Absence de réponse prématurée : Pour la quasi-totalité des modèles testés (Qwen2.5, Llama 3, etc.) et des niveaux de difficulté, la précision des sondages pour prédire les variables finales ( $A$ ) ou intermédiaires ( $B$ ) reste faible dans la partie INPUT (avant le CoT).
Émergence pendant le CoT : La précision augmente drastiquement uniquement lorsque le modèle génère les étapes intermédiaires du CoT. Par exemple, la valeur de $B$ devient lisible dans les états cachés au moment où le modèle écrit "B = 5" dans le CoT, et non avant.
Robustesse : Ce phénomène est observé de manière cohérente à travers différents modèles, tailles et niveaux de difficulté.

B. Résultats des Interventions Causales

Dépendance au CoT : L'intervention sur les états cachés de la partie OUTPUT (le CoT généré) modifie systématiquement la réponse finale. En revanche, l'intervention sur les états de la partie INPUT (le problème initial) a un impact négligeable sur la réponse finale.
Biais de récence (Recency Bias) : Le résultat final dépend fortement des dernières étapes du CoT. L'intervention sur une équation immédiate précédant le calcul final a un effet causal fort, tandis que l'intervention sur les équations initiales du problème (même si elles contiennent les mêmes nombres) n'affecte pas le résultat.
Pas de recomputation : Les modèles ne semblent pas recalculer les valeurs depuis l'entrée à chaque fois ; ils s'appuient sur les résultats intermédiaires stockés dans le texte du CoT généré précédemment.

C. Cas des Erreurs

Lorsque le modèle génère une réponse incorrecte, les sondages révèlent souvent que la réponse correcte était présente dans les états cachés à une étape antérieure, mais a été perdue ou ignorée lors de la génération suivante. Cela suggère que l'erreur provient d'un problème de propagation dans la génération, et non d'une absence de compréhension initiale.

5. Signification et Implications

Confiance dans les explications : Pour les tâches de raisonnement logique ou arithmétique complexes, les explications générées par les LLMs (CoT) ne sont pas de simples "fausses justifications". Elles reflètent fidèlement le processus de calcul interne du modèle.
Interprétabilité : L'étude valide l'hypothèse que le CoT agit comme une mémoire externe et un mécanisme de calcul itératif pour les LLMs. Le modèle "pense" en écrivant.
Limites et Nuances : Les auteurs notent que pour des tâches très simples (où le CoT n'est pas nécessaire), le modèle pourrait prédire la réponse immédiatement. Cependant, dès que le raisonnement multi-étapes est requis, le processus devient itératif et fidèle.
Débogage : La capacité à tracer les erreurs jusqu'à des étapes spécifiques du CoT ouvre la voie à de nouvelles méthodes de débogage des modèles internes.

En conclusion, cette étude apporte des preuves mécanistiques solides contredisant l'idée que les LLMs utilisent le CoT comme un simple outil de présentation post-hoc pour des tâches de raisonnement complexes. Au contraire, le CoT est le lieu même où le raisonnement et le calcul ont lieu.