Represented Is Not Computed: A Causal Test of Candidate Algorithmic Intermediates in a Transformer

Cet article démontre que, bien que des sondages linéaires suggèrent qu'un Transformer entraîné sur l'extraction de chiffres de base calcule des intermédiaires arithmétiques par étapes, des tests causaux révèlent que la voie computationnelle réelle repose sur des flux d'entrée distincts qui se combinent tardivement, mettant en évidence une divergence significative entre les preuves représentatives et le mécanisme causal.

Auteurs originaux : Ishita Darade, Sushrut Thorat

Publié 2026-05-22✓ Author reviewed
📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : Ishita Darade, Sushrut Thorat

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous avez un chef robot très intelligent, mais mystérieux. Vous lui donnez une carte de recette avec trois ingrédients : un grand nombre (NN), un nombre de base (BB), et un numéro de « créneau » spécifique (DD). Le travail du chef consiste à déterminer un chiffre spécifique du grand nombre, mais uniquement après l'avoir converti dans le « langage » de la base.

Par exemple, si le grand nombre est 255, la base est 16, et que vous demandez le créneau 0, le chef doit effectuer des calculs mathématiques pour vous donner la réponse.

Les chercheurs de cet article voulaient jeter un coup d'œil dans le cerveau du chef pour voir comment il résout cette énigme. Ils avaient une théorie très précise sur la façon dont le chef devrait réfléchir, et ils voulaient vérifier si c'était réellement ce qui se produisait.

Voici l'histoire de ce qu'ils ont découvert, décomposée en étapes simples :

1. Le chef est un génie dans cette tâche

D'abord, ils ont vérifié si le robot pouvait réellement faire le travail. Ils l'ont entraîné sur des milliers d'exemples, puis l'ont testé sur de nouveaux nombres jamais vus auparavant.

  • Le résultat : Le robot était presque parfait (99,83 % de précision). Il savait exactement quelle réponse donner. Nous savons donc qu'il peut résoudre le problème.

2. La théorie du « plan » (ce que nous pensions se produire)

Le problème mathématique possède une solution claire, étape par étape (comme un plan). Pour obtenir la réponse, vous devez théoriquement :

  1. Calculer un nombre auxiliaire (BDB^D).
  2. Diviser le grand nombre par ce nombre auxiliaire.
  3. Arrondir à l'entier inférieur.
  4. Prendre le reste.

Les chercheurs pensaient que le robot suivait probablement ce plan. Ils ont utilisé un outil appelé « sonde linéaire » (pensez-y comme à un détecteur de métaux) pour scanner le cerveau du robot.

  • La découverte : Le détecteur de métaux a émis un signal ! Il a révélé que le cerveau du robot contenait bien ces nombres exacts. Le « nombre auxiliaire » et le « nombre arrondi à l'entier inférieur » étaient clairement visibles dans les pensées internes du robot.
  • Le piège : Parce qu'ils ont trouvé ces nombres, ils ont supposé que le robot les utilisait pour résoudre le problème. Il semblait que le robot suivait le plan parfaitement.

3. Le test de réalité (le test causal)

C'est ici que l'article devient intéressant. Le fait que le robot ait ces nombres dans son cerveau ne signifie pas qu'il les utilise pour prendre sa décision.

Pour découvrir ce que le robot utilisait réellement, les chercheurs ont pratiqué une « chirurgie » sur le cerveau du robot en utilisant deux méthodes :

  • Méthode A : Le bouton de silence (ablation)
    Ils ont essayé de « couper le son » de parties spécifiques du cerveau censées transmettre les « nombres auxiliaires » vers la réponse finale.

    • Le résultat : De manière surprenante, couper le son des parties contenant les mathématiques complexes n'a pas beaucoup nui au robot. Mais lorsqu'ils ont coupé le son de la tout première partie où le robot regardait le « numéro de créneau » (DD), le robot a immédiatement oublié comment répondre. Peu importait que les mathématiques complexes fussent là ou non ; le robot les ignorait.
  • Méthode B : L'échange (patching)
    Ils ont pris un robot « donneur » qui avait un numéro de « créneau » (DD) différent, mais le même grand nombre et la même base. Ils ont échangé les signaux cérébraux du donneur avec ceux du robot original.

    • Le résultat : Le robot original a soudainement donné la réponse du donneur. Mais cela ne s'est produit que si le numéro de créneau (DD) était différent. S'ils échangeaient le grand nombre (NN) ou la base (BB), le robot s'en fichait.
    • La conclusion : Le robot n'utilisait pas les mathématiques complexes (le plan) pour décider de la réponse. Il écoutait directement uniquement le « numéro de créneau » (DD).

4. La découverte du « chemin caché »

Enfin, ils ont cartographié le véritable chemin emprunté par l'information.

  • Ce qu'ils attendaient : Une seule autoroute organisée où NN, BB et DD se rencontrent tous, se mélangent dans une formule mathématique complexe, puis produisent la réponse.
  • Ce qu'ils ont trouvé : Le robot possède trois routes séparées et petites. Une route transporte le grand nombre, une autre transporte la base, et une troisième transporte le numéro de créneau. Ces routes restent séparées pendant presque tout le trajet. Elles ne se rejoignent qu'à la toute dernière seconde, juste avant que la réponse ne soit écrite. Le robot ne construisait pas les « nombres auxiliaires » complexes pour les transmettre ; il gardait simplement les ingrédients séparés jusqu'à la toute fin.

La grande leçon : « Représenté » n'est pas « Calculé »

Le titre principal de l'article le dit tout : « Représenté n'est pas Calculé ».

  • Représenté : Le cerveau du robot contenait les nombres mathématiques complexes. Si vous regardiez le cerveau, vous pouviez les voir clairement (comme trouver une carte dans un sac à dos).
  • Calculé : Le robot n'utilisait pas ces nombres pour conduire la voiture. Il prenait un raccourci.

L'analogie :
Imaginez que vous conduisez à une fête. Vous avez une carte détaillée, dessinée à la main, dans votre boîte à gants, qui montre chaque virage, chaque feu de circulation et chaque raccourci (les mathématiques « représentées »).

  • La sonde : Vous regardez dans la boîte à gants et dites : « Aha ! Vous avez la carte ! Vous devez utiliser la carte pour conduire ! »
  • La réalité : Vous avez en fait juste mémorisé l'itinéraire et vous conduisez par instinct. Si vous enlevez la carte, vous arrivez toujours à destination. Si vous échangez la carte contre celle de quelqu'un d'autre, cela ne vous importe pas, car vous ne la regardez pas.

Résumé :
Le robot a résolu le problème mathématique parfaitement, et il a même « pensé » aux étapes mathématiques d'une manière qui semblait indiquer qu'il suivait les règles. Mais lorsqu'ils ont testé ce qui causait réellement la réponse du robot, ils ont découvert qu'il ignorait les étapes complexes et réagissait directement au « créneau » spécifique pour lequel il était interrogé.

L'article nous met en garde : le simple fait que nous puissions trouver une information à l'intérieur d'un réseau de neurones ne signifie pas que le réseau l'utilise réellement pour prendre des décisions. Nous devons tester la cause, pas seulement regarder le contenu.

Noyé(e) sous les articles dans votre domaine ?

Recevez des digests quotidiens des articles les plus récents correspondant à vos mots-clés de recherche — avec des résumés techniques, dans votre langue.

Essayer Digest →