Represented Is Not Computed: A Causal Test of Candidate… — Explication vulgarisée

Auteurs originaux : Ishita Darade, Sushrut Thorat

Publié 2026-05-22✓ Author reviewed ⓘ

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Ishita Darade, Sushrut Thorat

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous avez un chef robot très intelligent, mais mystérieux. Vous lui donnez une carte de recette avec trois ingrédients : un grand nombre ( $N$ ), un nombre de base ( $B$ ), et un numéro de « créneau » spécifique ( $D$ ). Le travail du chef consiste à déterminer un chiffre spécifique du grand nombre, mais uniquement après l'avoir converti dans le « langage » de la base.

Par exemple, si le grand nombre est 255, la base est 16, et que vous demandez le créneau 0, le chef doit effectuer des calculs mathématiques pour vous donner la réponse.

Les chercheurs de cet article voulaient jeter un coup d'œil dans le cerveau du chef pour voir comment il résout cette énigme. Ils avaient une théorie très précise sur la façon dont le chef devrait réfléchir, et ils voulaient vérifier si c'était réellement ce qui se produisait.

Voici l'histoire de ce qu'ils ont découvert, décomposée en étapes simples :

1. Le chef est un génie dans cette tâche

D'abord, ils ont vérifié si le robot pouvait réellement faire le travail. Ils l'ont entraîné sur des milliers d'exemples, puis l'ont testé sur de nouveaux nombres jamais vus auparavant.

Le résultat : Le robot était presque parfait (99,83 % de précision). Il savait exactement quelle réponse donner. Nous savons donc qu'il peut résoudre le problème.

2. La théorie du « plan » (ce que nous pensions se produire)

Le problème mathématique possède une solution claire, étape par étape (comme un plan). Pour obtenir la réponse, vous devez théoriquement :

Calculer un nombre auxiliaire ( $B^D$ ).
Diviser le grand nombre par ce nombre auxiliaire.
Arrondir à l'entier inférieur.
Prendre le reste.

Les chercheurs pensaient que le robot suivait probablement ce plan. Ils ont utilisé un outil appelé « sonde linéaire » (pensez-y comme à un détecteur de métaux) pour scanner le cerveau du robot.

La découverte : Le détecteur de métaux a émis un signal ! Il a révélé que le cerveau du robot contenait bien ces nombres exacts. Le « nombre auxiliaire » et le « nombre arrondi à l'entier inférieur » étaient clairement visibles dans les pensées internes du robot.
Le piège : Parce qu'ils ont trouvé ces nombres, ils ont supposé que le robot les utilisait pour résoudre le problème. Il semblait que le robot suivait le plan parfaitement.

3. Le test de réalité (le test causal)

C'est ici que l'article devient intéressant. Le fait que le robot ait ces nombres dans son cerveau ne signifie pas qu'il les utilise pour prendre sa décision.

Pour découvrir ce que le robot utilisait réellement, les chercheurs ont pratiqué une « chirurgie » sur le cerveau du robot en utilisant deux méthodes :

Méthode A : Le bouton de silence (ablation)
Ils ont essayé de « couper le son » de parties spécifiques du cerveau censées transmettre les « nombres auxiliaires » vers la réponse finale.
- Le résultat : De manière surprenante, couper le son des parties contenant les mathématiques complexes n'a pas beaucoup nui au robot. Mais lorsqu'ils ont coupé le son de la tout première partie où le robot regardait le « numéro de créneau » ( $D$ ), le robot a immédiatement oublié comment répondre. Peu importait que les mathématiques complexes fussent là ou non ; le robot les ignorait.
Méthode B : L'échange (patching)
Ils ont pris un robot « donneur » qui avait un numéro de « créneau » ( $D$ ) différent, mais le même grand nombre et la même base. Ils ont échangé les signaux cérébraux du donneur avec ceux du robot original.
- Le résultat : Le robot original a soudainement donné la réponse du donneur. Mais cela ne s'est produit que si le numéro de créneau ( $D$ ) était différent. S'ils échangeaient le grand nombre ( $N$ ) ou la base ( $B$ ), le robot s'en fichait.
- La conclusion : Le robot n'utilisait pas les mathématiques complexes (le plan) pour décider de la réponse. Il écoutait directement uniquement le « numéro de créneau » ( $D$ ).

4. La découverte du « chemin caché »

Enfin, ils ont cartographié le véritable chemin emprunté par l'information.

Ce qu'ils attendaient : Une seule autoroute organisée où $N$ , $B$ et $D$ se rencontrent tous, se mélangent dans une formule mathématique complexe, puis produisent la réponse.
Ce qu'ils ont trouvé : Le robot possède trois routes séparées et petites. Une route transporte le grand nombre, une autre transporte la base, et une troisième transporte le numéro de créneau. Ces routes restent séparées pendant presque tout le trajet. Elles ne se rejoignent qu'à la toute dernière seconde, juste avant que la réponse ne soit écrite. Le robot ne construisait pas les « nombres auxiliaires » complexes pour les transmettre ; il gardait simplement les ingrédients séparés jusqu'à la toute fin.

La grande leçon : « Représenté » n'est pas « Calculé »

Le titre principal de l'article le dit tout : « Représenté n'est pas Calculé ».

Représenté : Le cerveau du robot contenait les nombres mathématiques complexes. Si vous regardiez le cerveau, vous pouviez les voir clairement (comme trouver une carte dans un sac à dos).
Calculé : Le robot n'utilisait pas ces nombres pour conduire la voiture. Il prenait un raccourci.

L'analogie :
Imaginez que vous conduisez à une fête. Vous avez une carte détaillée, dessinée à la main, dans votre boîte à gants, qui montre chaque virage, chaque feu de circulation et chaque raccourci (les mathématiques « représentées »).

La sonde : Vous regardez dans la boîte à gants et dites : « Aha ! Vous avez la carte ! Vous devez utiliser la carte pour conduire ! »
La réalité : Vous avez en fait juste mémorisé l'itinéraire et vous conduisez par instinct. Si vous enlevez la carte, vous arrivez toujours à destination. Si vous échangez la carte contre celle de quelqu'un d'autre, cela ne vous importe pas, car vous ne la regardez pas.

Résumé :
Le robot a résolu le problème mathématique parfaitement, et il a même « pensé » aux étapes mathématiques d'une manière qui semblait indiquer qu'il suivait les règles. Mais lorsqu'ils ont testé ce qui causait réellement la réponse du robot, ils ont découvert qu'il ignorait les étapes complexes et réagissait directement au « créneau » spécifique pour lequel il était interrogé.

L'article nous met en garde : le simple fait que nous puissions trouver une information à l'intérieur d'un réseau de neurones ne signifie pas que le réseau l'utilise réellement pour prendre des décisions. Nous devons tester la cause, pas seulement regarder le contenu.

Résumé Technique : Représenté n'est pas Calculé

Énoncé du Problème
L'interprétabilité mécanistique vise à comprendre comment les réseaux de neurones intègrent les composants pertinents pour la tâche afin de résoudre des prompts structurés. Dans le langage naturel et la vision, les relations internes requises pour cette intégration sont rarement spécifiées avec suffisamment de précision pour définir un algorithme interne candidat. Cet article comble cette lacune en utilisant l'arithmétique, spécifiquement l'extraction de chiffre en base, comme cadre plus clair où la fonction entrée-sortie est connue et où les algorithmes candidats peuvent être définis explicitement. La tâche consiste à fournir un Transformer avec un nombre décimal $N$ , une base $B$ , et une position de chiffre $D$ , afin de prédire le coefficient de $B^D$ dans le développement en base- $B$ de $N$ . La solution sous forme fermée est $y = \lfloor N/B^D \rfloor \mod B$ .

La question centrale est de savoir si le modèle implémente une hypothèse algorithmique « en étapes » suggérée par cette solution sous forme fermée : calculer $B^D$ , puis $N/B^D$ , prendre la partie entière, et enfin réduire modulo $B$ . Plus précisément, les auteurs examinent trois questions distinctes souvent confondues dans l'interprétabilité : (1) Le modèle peut-il résoudre la tâche ? (2) Les quantités issues de la solution sous forme fermée sont-elles représentées au sein du réseau ? (3) Ces quantités sont-elles les intermédiaires causaux utilisés pour produire la réponse ?

Méthodologie
Les auteurs ont entraîné des Transformers en décodeur uniquement de 10 couches à partir de zéro sur la tâche d'extraction de chiffre en base, en utilisant trois graines aléatoires différentes. Les données d'entraînement comprenaient $N \in \{0, \dots, 999\}$ , $B \in \{2, \dots, 30\}$ , et diverses positions de chiffres $D$ . Les modèles ont été évalués de manière autoregressive sur des intersections nombre-base tenues de côté pour garantir une généralisation robuste plutôt que de la mémorisation.

Pour analyser les mécanismes internes, l'étude a employé une approche multi-étapes :

Sondage Linéaire : Des lectures linéaires ont été entraînées sur des activations figées pour tester si les quantités sous forme fermée ( $B^D$ , $N/B^D$ , $\lfloor N/B^D \rfloor$ , et la réponse finale) étaient linéairement décodables à partir des flux résiduels à diverses couches.
Ablation de l'Attention : Les auteurs ont effectué des ablations ciblées sur les routes d'attention du flux du token $D$ ( $D_{ones}$ ) vers les flux de sortie ( $O[0]$ et $O[1]$ ). Ils ont mesuré les baisses de performance lors du masquage de l'attention à partir de couches spécifiques (balayages à la fois de la couche peu profonde vers la profonde et de la profonde vers la peu profonde) pour identifier les dépendances causales.
Patching d'Activation : Pour déterminer quelle information est transportée par les routes causales, les auteurs ont effectué un patching des vecteurs clés/valeurs. Ils ont substitué les vecteurs clés/valeurs de $D_{ones}$ d'un exemple « donneur » dans un exemple « source ». En variant si le donneur différait de la source en $N$ , $B$ ou $D$ , ils ont testé si la route transporte une information spécifique à la position du chiffre ou aux intermédiaires arithmétiques plus larges.
Recherche de Circuit Sparse : Une recherche gloutonne de droite à gauche a été menée pour identifier un ensemble minimal de routes d'attention suffisant pour la performance de la tâche, révélant ainsi la structure globale de routage du modèle.

Résultats Clés

Compétence Tâche : Les modèles ont atteint une performance quasi parfaite sur les ensembles de test tenus de côté, avec une précision moyenne de réponse exacte de 99,83 % sur trois graines. Cela établit que les modèles ont appris de manière fiable la mappage de la tâche.
Représentation (Sondage) : Les quantités sous forme fermée étaient fortement décodables linéairement à partir des flux résiduels. Plus précisément, $B^D$ et les quantités de type quotient ( $N/B^D$ ) étaient accessibles depuis le flux $D_{ones}$ , la quantité de réponse finale étant décodable depuis les flux de sortie. Cela rendait l'hypothèse algorithmique en étapes plausible sur le plan représentationnel. Notamment, une partie de cette décodabilité existait même à l'initialisation, suggérant qu'elle est en partie un artefact de l'architecture et de la géométrie des données plutôt qu'un calcul purement appris.
Usage Causal (Ablation et Patching) : Malgré la forte représentation des intermédiaires en étapes, les tests causaux ont révélé un mécanisme différent.
- Sensibilité Précoce : Le comportement de sortie était plus sensible à la communication précoce $D_{ones} \to O$ (spécifiquement les couches 0–1). Le masquage de ces couches précoces a provoqué une chute drastique de la performance, tandis que le masquage des couches ultérieures avait un effet minimal.
- Transfert d'Information Sélectif : Les expériences de patching ont montré que la route $D_{ones} \to O$ transporte une information comportementalement efficace qui est hautement sélective pour $D$ . Lorsque le donneur différait uniquement en $N$ ou $B$ , la sortie du modèle patché restait inchangée (correspondant à la source). Lorsque le donneur différait uniquement en $D$ , la sortie basculait pour correspondre au donneur.
- Routage Factorisé : La recherche de circuit sparse a révélé que $N$ , $B$ et $D$ sont acheminés à travers des échafaudages locaux majoritairement séparés qui convergent tardivement au niveau des flux de sortie. Il n'y a aucune preuve d'un intermédiaire unique et unifié sous forme fermée étant transmis du côté du prompt vers la sortie.

Contributions et Revendications Clés
La contribution principale de l'article est une observation dissociative : le modèle représente les quantités qui rendent la solution algorithmique en étapes plausible (elles sont décodables linéairement), pourtant la route causale identifiée ne transmet pas ces quantités vers la sortie.

Les auteurs affirment que « représenté n'est pas calculé ». Dans ce contexte, « calculé » fait référence aux intermédiaires causaux réellement utilisés pour former la réponse. L'étude démontre que :

Les sondes peuvent diverger de la réalité causale : Les sondes linéaires ont identifié avec succès la présence d'intermédiaires algorithmiques, mais les interventions causales (ablation et patching) ont prouvé que ces intermédiaires n'étaient pas les principaux moteurs de la sortie.
Décodabilité $\neq$ Usage Causal : Une forte décodabilité d'une quantité ne garantit pas qu'elle est un intermédiaire causal appris ; elle peut refléter une accessibilité fournie par l'architecture ou la tokenisation qui est ensuite sculptée par l'entraînement mais non utilisée dans le chemin causal spécifique vers la sortie.
Mécanisme d'Extraction de Chiffre en Base : Le modèle résout la tâche en acheminant $N$ , $B$ et $D$ à travers des voies séparées et en les intégrant tardivement, en s'appuyant sur une communication précoce sélective pour $D$ plutôt que sur une transmission en étapes de valeurs de type quotient.

Signification
L'article sert d'avertissement direct et testable contre la dépendance exclusive aux sondes linéaires pour l'interprétation mécanistique. Même dans un cadre avec un algorithme explicite et connu et une performance de tâche quasi parfaite, le mécanisme causal interne peut différer considérablement de l'hypothèse algorithmique intuitive. Les auteurs soutiennent que l'explication mécanistique nécessite de démontrer comment les quantités sont utilisées de manière causale, et non seulement qu'elles sont présentes. Ce travail complète les recherches existantes sur les circuits des Transformers et les mécanismes arithmétiques en montrant que des routes heuristiques ou non algorithmiques peuvent résoudre des tâches où des intermédiaires algorithmiques clairs sont clairement représentables mais non causalement utilisés.

Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer