The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Paradoxe du "Grokking" : Quand le cerveau sait, mais que la bouche ne parle pas

Imaginez un élève très doué qui prépare un examen de mathématiques. Pendant des semaines, il semble ne rien comprendre : il échoue à tous les tests, il a l'air perdu. C'est ce que les chercheurs appellent le "Grokking" (un mot qui signifie "comprendre soudainement"). Soudain, après des mois de stagnation, il passe de 0 % à 100 % de réussite du jour au lendemain.

La question que se pose cette étude est la suivante : Pendant ces mois de "silence", l'élève apprenait-il vraiment, ou était-il vraiment stupide ?

Les chercheurs de Stanford ont découvert quelque chose de fascinant : L'élève apprenait tout le temps, mais il avait du mal à écrire la réponse.

🏗️ L'Analogie de l'Usine : Le Chef et l'Opérateur

Pour comprendre leur découverte, imaginons une usine de transformation de nombres. Cette usine a deux départements distincts :

Le Département "Compréhension" (L'Encodeur) : C'est le chef d'atelier. Il reçoit un nombre (par exemple, 80) et il le transforme en une représentation interne très précise. Il comprend parfaitement la logique, la parité (pair/impair) et les règles mathématiques.
Le Département "Production" (Le Décodeur) : C'est l'opérateur sur la chaîne de montage. Son travail est de prendre la compréhension du chef et de fabriquer le bon produit final (la réponse écrite).

Ce que l'étude a révélé :
Dans les modèles d'IA, le Chef (l'Encodeur) apprend les règles mathématiques très vite, en quelques heures de "formation". Il sait déjà tout !
Mais l'Opérateur (le Décodeur) est lent, confus et ne sait pas comment traduire cette connaissance en une réponse écrite correcte. Il reste bloqué pendant des semaines, produisant des erreurs, alors que le chef, lui, a déjà tout compris.

Le "Grokking" (le saut soudain de performance) n'est pas le moment où l'IA apprend la mathématique. C'est le moment où l'Opérateur enfin apprend à écouter le Chef et à traduire ses instructions.

🚧 L'Expérience du "Greffe" : Qui est le vrai problème ?

Pour prouver leur théorie, les chercheurs ont fait des expériences un peu comme des chirurgiens :

L'expérience de la greffe du Chef : Ils ont pris un Chef (Encodeur) qui avait déjà tout appris, et ils l'ont mis dans une nouvelle usine avec un tout nouvel Opérateur (Décodeur) qui ne savait rien.
- Résultat : La nouvelle usine a appris 3 fois plus vite ! L'Opérateur a compris immédiatement grâce au Chef expérimenté.
L'expérience de la greffe de l'Opérateur : Ils ont pris un Opérateur (Décodeur) qui avait déjà appris, et l'ont mis avec un nouveau Chef (Encodeur) qui ne savait rien.
- Résultat : Ça a été un désastre. L'Opérateur expérimenté ne pouvait rien faire sans un Chef compétent.

Conclusion : Le problème n'est pas que l'IA ne comprend pas les maths. Le problème est que la partie de l'IA qui parle (le décodeur) met beaucoup de temps à rattraper la partie qui comprend (l'encodeur).

🎨 Le Secret des Couleurs : Pourquoi le choix des nombres change tout

Une autre découverte incroyable concerne la façon dont les nombres sont écrits. Imaginez que vous deviez expliquer une recette à quelqu'un. Si vous utilisez des mots compliqués, c'est dur. Si vous utilisez des mots simples, c'est facile.

Les chercheurs ont testé 15 façons différentes d'écrire les nombres (en base 2, 8, 10, 24, etc.).

Le cas tragique (Base 2 / Binaire) : C'est comme essayer de dessiner un tableau complexe avec seulement deux couleurs (noir et blanc). L'Opérateur est si confus qu'il abandonne complètement. L'usine s'effondre.
Le cas magique (Base 24) : C'est comme avoir une palette de couleurs parfaitement adaptée à la peinture. L'Opérateur comprend instantanément les indices locaux. Il atteint 99,8 % de réussite.

La leçon : Le choix de la "langue" (la base du nombre) agit comme un filtre. Certains filtres rendent le travail de l'Opérateur facile, d'autres le rendent impossible, même si le Chef (l'Encodeur) a la même intelligence.

💡 En Résumé

Cette étude nous apprend trois choses importantes sur l'intelligence artificielle :

Le savoir précède l'action : Une IA peut "savoir" la réponse bien avant de réussir à la donner. Il y a un décalage entre ce qu'elle comprend et ce qu'elle dit.
Le goulot d'étranglement est la parole : Souvent, ce n'est pas l'intelligence qui manque, mais la capacité à exprimer cette intelligence correctement.
La forme compte : La façon dont on présente les informations (le format des nombres) peut faire la différence entre un génie et un échec total.

En gros, l'IA ne manque pas de "lumière" intérieure pendant ces périodes de stagnation. Elle a juste besoin de temps pour apprendre à ouvrir la bouche et à dire ce qu'elle sait déjà.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article s'intéresse au phénomène de « grokking » (ou « déclic ») observé dans les transformateurs entraînés sur des tâches algorithmiques. Ce phénomène se caractérise par une longue période de plateau où la précision sur l'ensemble d'entraînement est bonne, mais où la généralisation sur l'ensemble de test reste aléatoire, avant une amélioration soudaine et abrupte.

Le problème central identifié par les auteurs est l'origine de ce délai :

Est-ce que le modèle ne parvient pas à acquérir la structure arithmétique nécessaire pendant le plateau ?
Ou bien la structure est-elle déjà apprise et encodée, mais le modèle échoue-t-il à la lire (décoder) pour produire la sortie correcte ?

Dans les modèles encodeur-décodeur, cette distinction est cruciale car elle permet de séparer la formation des représentations (encodeur) de leur utilisation pour la génération (décodeur). L'étude se concentre sur la prédiction d'une étape de la suite de Collatz ( $T(n) = n/2$ si pair, $3n+1$ si impair), une tâche qui combine des branches conditionnelles, des informations de résidus et des transformations au niveau des chiffres.

2. Méthodologie

Les auteurs utilisent une approche expérimentale rigoureuse combinant des sondes linéaires, des interventions causales et une analyse systématique des représentations numériques.

Tâche et Modèle : Entraînement d'un transformateur encodeur-décodeur sur la prédiction d'une étape de Collatz. Les entrées et sorties sont des séquences de chiffres en base $b$ .
Sondage des Représentations (Probing) : Ils entraînent des classifieurs linéaires sur les états cachés de l'encodeur (figés) pour détecter la présence de structures arithmétiques (parité, résidus modulo 4, 8, 16) à différents stades de l'entraînement.
Interventions Causales (Transplantation et Réinitialisation) :
- Transplantation d'encodeur : Un encodeur convergé est figé et couplé à un décodeur fraîchement initialisé.
- Transplantation de décodeur : Un décodeur convergé est figé et couplé à un encodeur fraîchement initialisé.
- Rembobinage du décodeur (Decoder Rewind) : L'encodeur convergé est figé, le décodeur est réinitialisé à un checkpoint précoce (ex: étape 2k), et seul le décodeur est réentraîné.
Effacement de Parité (Parity Erasure) : À l'inférence, la direction linéaire apprise pour la parité est projetée hors des états de l'encodeur pour mesurer l'impact sur la précision de sortie.
Analyse de la Base Numérique (Base Sweep) : Entraînement sur 15 bases différentes (puissances de 2, de 3, multiples de 6, base 10) pour étudier comment la représentation des nombres influence la difficulté de la tâche pour le décodeur.

3. Résultats Clés

A. L'Encodeur apprend bien avant le Décodeur

Les sondes révèlent un « fossé de connaissance cachée » (shadow knowledge gap).

Dès l'étape 2 000, un probe linéaire atteint 99,7 % de précision pour détecter la parité ( $n \mod 2$ ) dans les états de l'encodeur.
À ce même moment, la précision de séquence globale du modèle est d'environ 38 %.
Cette structure arithmétique (parité, résidus modulo 4, 8, 16) est donc disponible dans l'encodeur bien avant que le modèle ne parvienne à généraliser correctement.

B. Le Goulot d'Étranglement est le Décodeur

Les interventions causales confirment que le délai vient de la lecture (readout) et non de l'acquisition de la structure.

Transplantation d'encodeur : Coupler un encodeur convergé à un nouveau décodeur accélère le « grokking » d'un facteur 2,75 et atteint une précision finale plus élevée.
Rembobinage du décodeur : En figeant l'encodeur convergé et en réentraînant uniquement le décodeur depuis un état précoce, le plateau est entièrement éliminé. Le modèle atteint 97,6 % de précision (contre 86,1 % pour un entraînement conjoint), prouvant que le décodeur peut apprendre très vite si la représentation est déjà mature.
Effacement de parité : L'impact de l'effacement de la direction de parité est maximal pendant le plateau (baisse de 8,2 points de précision) et devient négligeable après la convergence, suggérant que le décodeur dépend d'abord de signaux linéaires simples avant de développer des mécanismes de lecture plus robustes.

C. L'Induction Bias de la Base Numérique

La base de représentation agit comme un biais inductif critique sur la capacité d'apprentissage du décodeur.

Bases favorables : Les bases dont la factorisation s'aligne avec l'arithmétique de Collatz (ex: base 24, divisible par 2 et 3) atteignent 99,8 % de précision. La branche impaire ( $3n+1$ ) y est plus facile car les retenues (carries) se propagent et se résolvent plus vite.
Échec en Binaire (Base 2) : Le modèle échoue complètement en base 2. Bien qu'il mémorise brièvement l'ensemble d'entraînement, la précision s'effondre à zéro et ne se rétablit jamais. L'analyse montre un effondrement représentationnel (dimensionnalité effective passant de 5,2 à 1,0), car la structure locale des chiffres en binaire ne fournit pas assez d'indices pour que le décodeur puisse généraliser la branche impaire.

D. Limites de la Transfert Inter-tâches

Le transfert entre la prédiction de Collatz et le calcul du PGCD (Greatest Common Divisor) est médiocre dans les deux sens. Cela suggère que les représentations apprises sont fortement liées au format d'entrée spécifique de la tâche et ne constituent pas des primitives arithmétiques réutilisables universelles dans ce contexte.

4. Contributions Principales

Démonstration du décalage Représentation/Comportement : Preuve empirique que dans les tâches arithmétiques, la structure interne (encodeur) peut être parfaitement apprise bien avant que le comportement observable (décodeur) ne la reflète.
Localisation du Goulot d'Étranglement : Identification claire que le « grokking » dans les modèles encodeur-décodeur est principalement un problème de lecture (readout) par le décodeur, et non de formation de représentation.
Rôle de la Base Numérique : Mise en évidence du fait que le choix de la base numérique n'est pas une simple question de formatage, mais un biais inductif déterminant qui contrôle la complexité locale des retenues et donc la facilité d'apprentissage du décodeur.
Méthodologie Causale : Utilisation de techniques de transplantation et de rembobinage pour isoler les dynamiques de l'encodeur et du décodeur, offrant une méthode robuste pour diagnostiquer les causes de la généralisation tardive.

5. Signification et Implications

Ce travail remet en question l'interprétation courante du « grokking » comme un processus lent d'apprentissage de règles complexes. Il suggère plutôt que le modèle acquiert rapidement la connaissance interne, mais que le chemin de sortie (le décodeur) met beaucoup de temps à s'ajuster pour exploiter cette connaissance, souvent bloqué par la complexité des interactions locales (comme les retenues en base 2).

Cela a des implications importantes pour :

L'interprétabilité : Il est crucial de vérifier les représentations internes (via des sondes) avant de conclure qu'un modèle n'a pas appris une tâche.
L'architecture : La conception du décodeur et le choix de la représentation des données (tokenization, base numérique) sont aussi critiques que la capacité de l'encodeur pour la généralisation.
L'entraînement : Des stratégies comme le gel de l'encodeur ou l'initialisation spécifique du décodeur pourraient accélérer considérablement l'apprentissage de tâches algorithmiques complexes.

En résumé, l'article conclut que le délai de généralisation est un problème d'accès à la connaissance plutôt qu'un problème de connaissance elle-même.