Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Grand Secret de la "Surprise" des IA

Imaginez que vous apprenez à un ami à faire des maths. Vous lui donnez quelques exemples :

1 + 1 = 2
2 + 2 = 4
3 + 3 = 6

Ensuite, vous lui dites : "Attends, dans ce jeu spécial, la règle change un peu. 1 + 1 = 3, 2 + 2 = 5. Alors, combien font 3 + 3 ?"

Un humain comprendrait immédiatement le principe : "Ah ! Il faut faire l'addition normale, puis ajouter 1 de plus". Et il répondrait 7.

La question que se posent les chercheurs de cette étude est la suivante : Comment une machine (une "Grande Langue") comprend-elle cette règle bizarre juste en la lisant, sans jamais l'avoir apprise avant ?

🕵️‍♂️ L'Enquête : Découvrir les "Petits Ingénieurs" dans le cerveau de l'IA

Les chercheurs ont décidé de faire une autopsie numérique du cerveau de l'IA (une technique appelée "interprétabilité") pour voir exactement ce qui se passe à l'intérieur quand elle résout ce problème.

Ils ont découvert que l'IA ne devine pas au hasard. Elle utilise un mécanisme très précis qu'ils ont nommé "l'induction de fonction".

Pour faire simple, imaginez que le cerveau de l'IA est une grande usine avec des milliers d'ouvriers (appelés "têtes d'attention"). Voici comment ils travaillent ensemble pour résoudre ce casse-tête :

1. Les "Détecteurs d'Anomalie" (Les Gardiens)

Quand l'IA lit "1 + 1 = 3", elle remarque quelque chose d'étrange. Normalement, 1+1 fait 2.
Une équipe d'ouvriers spécialisés, qu'on pourrait appeler les "Gardiens de la Surprise", repère cette erreur intentionnelle. Ils disent : "Hé ! La réponse attendue (2) a été remplacée par (3). Il y a un décalage de +1 !". Ils enregistrent cette information.

2. Les "Messagers de la Règle" (Les Inducteurs)

Ensuite, une autre équipe d'ouvriers, les "Messagers", récupère cette information. Ils ne copient pas juste le chiffre "3". Non, ils comprennent le concept : "Il faut ajouter 1 à tout ce qui suit".
C'est comme si un chef d'orchestre disait aux musiciens : "Oubliez la partition habituelle, jouez toujours une note plus haute !"

3. Les "Assembleurs" (Les Consolidateurs)

Enfin, une dernière équipe reçoit le message des Messagers. Ils prennent le résultat de l'addition normale (qui serait 6 pour 3+3) et y appliquent la règle du "+1" pour produire le résultat final : 7.

🎭 Pourquoi c'est génial ? (L'Analogie du Caméléon)

Ce qui rend cette découverte si fascinante, c'est que ces mêmes "ouvriers" ne servent pas qu'à faire des maths bizarres. Les chercheurs ont montré que cette équipe est polyvalente.

Imaginez que vous avez une équipe d'ouvriers très doués pour "décaler les choses d'un cran".

Si vous leur donnez un problème de maths (1+1=3), ils ajoutent 1.
Si vous leur donnez un problème de code secret (décaler les lettres de l'alphabet : A devient C), ils appliquent la même logique de "décalage".
Si vous leur donnez un quiz où la bonne réponse est toujours la lettre suivante (A devient B), ils font pareil.

C'est comme si l'IA avait appris à construire des outils réutilisables. Au lieu d'apprendre par cœur chaque nouvelle tâche, elle apprend à créer un "module de décalage" qu'elle peut brancher sur n'importe quel problème.

💡 Ce que cela nous apprend sur l'avenir

Cette étude nous dit deux choses importantes :

L'IA est plus intelligente qu'on ne le pensait : Elle ne fait pas que répéter ce qu'elle a vu. Elle est capable de comprendre des concepts abstraits (comme "ajouter 1") et de les appliquer à de nouvelles situations, un peu comme un humain.
Attention aux pièges : Parfois, l'IA trouve des raccourcis. Dans l'étude, ils ont vu que pour certaines additions complexes, l'IA utilisait ce mécanisme de "décalage" d'une manière un peu approximative, ce qui lui permettait de donner la bonne réponse par hasard, mais sans vraiment comprendre la logique profonde. C'est un peu comme un étudiant qui trouve la bonne réponse en devinant la formule, sans savoir pourquoi elle marche.

En résumé

Cette recherche nous montre que les intelligences artificielles ne sont pas de simples machines à copier-coller. Elles possèdent des mécanismes internes sophistiqués qui leur permettent de comprendre des règles nouvelles et de les réutiliser dans des contextes totalement différents. C'est un pas de géant pour comprendre comment les IA apprennent, et comment nous pourrons les rendre encore plus fiables et créatives à l'avenir.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les grands modèles de langage (LLM) démontrent une capacité remarquable à apprendre de nouvelles tâches via l'apprentissage en contexte (In-Context Learning ou ICL), sans mise à jour des poids. Cependant, les mécanismes internes précis qui permettent cette généralisation au niveau de la tâche restent mal compris.

La plupart des travaux antérieurs se sont concentrés sur :

Les têtes d'induction (Induction Heads) : responsables de la copie de motifs token-à-token (ex: $[A][B]...[A] \rightarrow [B]$ ).
Les vecteurs de fonction (Function Vectors) : qui transportent des représentations de tâches pour des mappings simples (ex: Pays $\rightarrow$ Capitale).

L'article s'interroge sur la capacité des modèles à généraliser des tâches impliquant un raisonnement multi-étapes et des concepts nouveaux. Pour étudier cela, les auteurs utilisent une tâche synthétique et contre-factuelle : l'addition "off-by-one" (ex: $1+1=3 $,$ 2+2=5 $,$ 3+3=? $). Cette tâche exige deux étapes : d'abord effectuer une addition standard, puis appliquer une fonction inattendue d'incrémentation de$ +1$ au résultat.

2. Méthodologie

Les auteurs ont employé des techniques d'interprétabilité mécanistique, spécifiquement le patching de chemins (path patching), pour cartographier le circuit neuronal responsable de la génération de la réponse correcte ($3+3=7 $au lieu de$ 6$).

Modèles étudiés : Gemma-2 (9B) comme modèle principal, avec des validations sur Llama-2, Llama-3, Mistral et Phi-4.
Protocole expérimental :
1. Définition des prompts : Comparaison entre un prompt de base (addition standard) et un prompt de contraste (addition off-by-one).
2. Patching de chemins : Remplacement sélectif des activations d'un prompt de contraste par celles d'un prompt de base (et vice-versa) pour identifier quelles têtes d'attention influencent le logit de sortie.
3. Analyse causale : Ablation de têtes spécifiques et injection de leurs sorties dans des prompts naïfs pour observer l'effet sur la probabilité de génération.
4. Généralisation : Test du circuit découvert sur d'autres tâches (addition off-by-k, QCM décalé, Chiffre de César, addition en base-8).

3. Contributions Clés et Découvertes

A. Découverte du Mécanisme d'Induction de Fonction

Les auteurs identifient un circuit composé de trois groupes de têtes d'attention qui coopèrent pour induire la fonction $f(x) = x + 1$ . Ce mécanisme est une généralisation des têtes d'induction classiques, passant d'une induction de token (ordre 0) à une induction de fonction (ordre 1).

Le circuit se décompose ainsi :

Têtes de token précédent (Previous Token - PT Heads) : Situées dans les couches intermédiaires. Elles détectent la discordance entre le résultat attendu (addition standard) et le résultat fourni dans les exemples en contexte (ex: voir "3" après "1+1="). Elles enregistrent cette anomalie.
Têtes d'induction de fonction (Function Induction - FI Heads) : Situées dans les couches tardives. Elles récupèrent l'information enregistrée par les têtes PT et écrivent la fonction de décalage ( $+1$ ) dans le flux résiduel. Contrairement aux têtes d'induction classiques qui copient un token, ces têtes composent une fonction mathématique.
Têtes de consolidation (Consolidation Heads) : Situées dans les deux dernières couches. Elles synthétisent les informations provenant des FI heads et des calculs standards pour finaliser le token de sortie.

B. Nature Collaborative et Distribuée

Une découverte majeure est que la fonction $+1$ n'est pas écrite par une seule tête, mais est distribuée.

Plusieurs têtes FI (environ 6 à 9 selon le modèle) agissent en parallèle.
Chaque tête contribue à une fraction spécifique de la fonction (ex: une tête favorise $x+1$ , une autre supprime $x-1$ , une autre supprime $x$ ).
L'agrégation de ces contributions partielles dans le flux résiduel produit l'effet complet de la fonction $f(x) = x+1$ .

C. Universalité et Réutilisation du Circuit

Le mécanisme d'induction de fonction n'est pas limité à l'addition. Les auteurs montrent qu'il est réutilisé dans des tâches structurellement similaires mais sémantiquement différentes :

Addition off-by-k : Le même circuit s'adapte à des décalages de $-2, -1, +2$ .
QCM décalé (Shifted MMLU) : Le modèle applique un décalage de la lettre de réponse (A $\rightarrow$ B).
Chiffre de César : Le modèle applique un décalage alphabétique.
Addition en base-8 : Le modèle utilise ce mécanisme pour ajuster les résultats de l'addition décimale vers la base octale (bien que cela mène parfois à des erreurs de généralisation dans des cas complexes de retenue).

4. Résultats Expérimentaux

Performance : Tous les modèles modernes testés réussissent la tâche off-by-one avec une précision croissante selon le nombre d'exemples en contexte (shots), atteignant près de 100% pour les modèles récents (Llama-3, Phi-4) avec 8 shots.
Validation par Ablation : L'ablation des têtes FI identifiées fait chuter la précision sur la tâche off-by-one à 0%, ramenant le modèle à une addition standard, tandis que l'ablation de têtes aléatoires n'a aucun effet. Cela confirme la causalité de ces têtes.
Analyse des Vecteurs de Fonction : L'analyse des heatmaps montre que chaque tête FI a une "spécialité" (ex: suppression de certaines valeurs, promotion d'autres) qui varie selon le décalage $k$ demandé, prouvant la flexibilité du mécanisme.
Limites de Généralisation : Dans la tâche d'addition en base-8, le modèle montre des signes de sous-généralisation ou de sur-généralisation, indiquant que bien que le mécanisme d'induction existe, la capacité à gérer des conditions complexes (comme les retenues multiples) reste un défi.

5. Signification et Implications

Compréhension du Raisonnement Latent : L'article démontre que les LLMs peuvent effectuer un raisonnement multi-étapes latent (calculer une somme, puis appliquer une transformation) en inférant dynamiquement la deuxième étape à partir du contexte.
Compositionnalité : Les résultats suggèrent que les LLMs possèdent des mécanismes composables et réutilisables. Une même structure de circuit (PT $\rightarrow$ FI $\rightarrow$ Consolidation) peut être réaffectée à différentes tâches (arithmétique, linguistique, logique) dès lors qu'elles partagent une structure de "décalage" ou de transformation.
Au-delà de la copie de tokens : Cela étend la compréhension des têtes d'induction au-delà de la simple copie de tokens vers l'induction de fonctions abstraites.
Implications pour le Développement de Modèles :
- Évaluation : La précision brute peut masquer des processus de raisonnement défectueux (ex: raccourcis algorithmiques dans l'addition en base-8). L'interprétabilité est nécessaire pour valider la qualité du raisonnement.
- Pré-entraînement : L'émergence de ces circuits suggère qu'il pourrait être bénéfique d'entraîner les modèles sur des tâches à étape unique avant de les exposer à des tâches multi-étapes pour favoriser le développement de mécanismes d'induction de fonction.
- Alignement : Les auteurs hypothesisent que des comportements problématiques (comme la flatterie ou le changement de croyance) pourraient reposer sur des mécanismes d'induction de fonction similaires, où le modèle induit une fonction de modification de croyance à partir du contexte.

En conclusion, cette étude offre une fenêtre détaillée sur la manière dont les LLMs internalisent et exécutent des règles abstraites, révélant une architecture interne flexible capable de généraliser des tâches complexes via des circuits neuronaux réutilisables.