LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

Cette étude démontre que les grands modèles de langage calculent itérativement leurs réponses au fur et à mesure de la génération de leur chaîne de pensée, rendant ainsi ces explications fidèles à leur processus de calcul interne plutôt que de simples justifications a posteriori.

Keito Kudo, Yoichi Aoki, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi, Ana Brassard, Keisuke Sakaguchi, Kentaro Inui

Publié 2026-03-20
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Grand Mystère : Le modèle "triche-t-il" ?

Imaginez que vous demandez à un génie (une Intelligence Artificielle) de résoudre une énigme mathématique complexe. Il vous répond : "Attends, je réfléchis..." et écrit une longue explication étape par étape avant de vous donner le résultat final.

La grande question que se posent les chercheurs de cette étude est la suivante : Est-ce que le génie a vraiment calculé la réponse pendant qu'il écrivait son explication, ou a-t-il déjà trouvé la réponse dans sa tête avant même de commencer à écrire, et n'a-t-il fait que rédiger une histoire pour faire joli ?

C'est ce qu'on appelle la question de la "fidélité". Si le modèle a déjà la réponse, son explication n'est qu'un théâtre, une justification postérieure (un "post-hoc"). Si, au contraire, il calcule en écrivant, alors son explication est un véritable reflet de sa pensée.

🧪 L'Expérience : Le "Test de Rayons X"

Pour répondre à cette question, les chercheurs ont créé un terrain de jeu très contrôlé : des problèmes de mathématiques simples mais en plusieurs étapes (comme des énigmes de type "A = 1 + B, B = 2 + 3, combien vaut A ?").

Ils ont utilisé deux outils magiques pour regarder dans la "tête" du modèle :

  1. Les "Sondes Linéaires" (Le détecteur de mensonge) :
    Imaginez que vous avez un détecteur capable de lire les pensées d'un élève à chaque seconde de son examen.

    • Les chercheurs ont placé ce détecteur à chaque moment où le modèle écrivait une lettre ou un chiffre.
    • Le résultat surprenant : Au moment où le modèle commence à lire l'énoncé du problème, le détecteur ne voit rien. La réponse n'est pas là.
    • C'est seulement au fur et à mesure que le modèle écrit son explication (par exemple, quand il écrit "B = 5") que le détecteur commence à voir la réponse s'illuminer dans les couches profondes du modèle.
    • Analogie : C'est comme si un cuisinier ne savait pas quel plat il allait servir tant qu'il n'avait pas commencé à couper les légumes. Il ne sort pas le plat tout fait du frigo ; il le cuisine en direct.
  2. L'Intervention Causale (Le "Switch" de réalité) :
    Pour être sûrs, les chercheurs ont fait une expérience encore plus radicale. Ils ont pris les "pensées" (les états internes) du modèle au milieu de son explication et les ont remplacées par les pensées d'un autre modèle qui résolvait un problème différent.

    • Ce qui s'est passé : Dès qu'ils ont changé les pensées du modèle pendant l'explication, la réponse finale a changé pour correspondre au nouveau problème.
    • Analogie : Imaginez un acteur qui répète une pièce. Si vous lui changez la dernière réplique qu'il a apprise, il change tout le dénouement de la pièce. Cela prouve qu'il n'avait pas mémorisé la fin dès le début, mais qu'il construisait l'histoire en temps réel.

🎭 La Conclusion : Pas de triche !

Les chercheurs en arrivent à une conclusion rassurante (du moins pour les problèmes de logique) :

  • Le modèle ne triche pas. Il ne connaît pas la réponse finale avant de commencer à écrire.
  • Il pense en écrivant. Chaque étape de son explication (CoT) est une vraie étape de calcul. Il construit la réponse brique par brique, exactement comme il l'écrit.
  • La "Biais de Récence" : Le modèle se souvient surtout de ce qu'il vient d'écrire. Pour trouver la réponse finale, il s'appuie lourdement sur la dernière étape de son raisonnement, comme un escalier où le dernier marche est la plus importante pour atteindre le toit.

🌟 En résumé

Cette étude nous dit que lorsque vous voyez un grand modèle d'IA faire un raisonnement pas à pas, ce n'est pas du bluff. C'est un véritable processus de pensée en direct. L'explication que vous lisez est le film de sa réflexion, et non pas une bande-annonce écrite après coup pour justifier une réponse qu'il avait déjà trouvée.

C'est une bonne nouvelle pour la confiance que nous pouvons accorder à ces machines : quand elles disent "Je réfléchis", elles réfléchissent vraiment !