Each language version is independently generated for its own context, not a direct translation.

La Grande Idée : Trouver les « Interrupteurs Cachés » dans l'IA

Imaginez que vous avez une machine gigantesque et complexe (comme un réseau de neurones) qui a appris à accomplir une tâche, telle que l'addition de nombres ou la rédaction d'histoires. Vous pouvez voir la machine fonctionner, mais vous ne pouvez pas voir comment elle pense. C'est comme regarder une boîte noire : vous entrez un nombre, et un autre nombre en sort, mais les engrenages à l'intérieur sont cachés.

Les scientifiques veulent ouvrir la boîte et trouver les « interrupteurs » ou les « cadrans » spécifiques à l'intérieur que la machine utilise pour comprendre des concepts comme la « grammaire », l'« addition » ou le « sentiment ». Cela s'appelle l'interprétabilité mécaniste.

Le problème est que la machine possède des millions de cadrans, tous emmêlés ensemble. En choisir un au hasard, c'est comme essayer de trouver une aiguille spécifique dans une botte de foin en devinant.

Le papier de Jennifer Lin propose une nouvelle et astucieuse façon de trouver ces aiguilles. Au lieu de deviner, l'auteure utilise un outil mathématique appelé le Noyau Tangent Neuronal Empirique (eNTK).

L'Analogie : Le Test de la « Chambre d'Écho »

Imaginez le réseau de neurones comme une immense chambre d'écho. Lorsque vous criez un mot spécifique (une caractéristique, comme « nom » ou « ajouter 5 »), le son rebondit dans la pièce et frappe les murs (les paramètres du modèle) selon un motif très précis.

L'eNTK agit comme un microphone ultra-sensible qui enregistre comment toute la pièce vibre lorsque vous criez.

Si vous criez « nom », la pièce vibre selon un rythme spécifique.
Si vous criez « verbe », elle vibre selon un rythme différent.

L'hypothèse de l'auteure est la suivante : Si nous analysons les vibrations les plus fortes (les « principales directions propres ») dans cette chambre d'écho, nous pouvons déterminer exactement quels mots ont été criés.

En termes techniques, le papier affirme qu'en examinant les « motifs les plus forts » de la façon dont les engrenages internes du modèle bougent lorsqu'il apprend, nous pouvons identifier les directions exactes que le modèle utilise pour détecter les caractéristiques.

Les Trois Expériences : Des Mathématiques Simples aux Grands Modèles de Langage

L'auteure a testé cette idée de « chambre d'écho » sur trois types de machines différents, devenant progressivement plus complexes.

1. La Machine de Mathématiques Simple (MLP)

La Tâche : Une machine simple a appris à ajouter des nombres modulo un nombre premier (un type spécifique de casse-tête mathématique).
La « Vérité Terrain » : Nous connaissions déjà la recette secrète utilisée par la machine : elle transformait les nombres en ondes (caractéristiques de Fourier), comme transformer un nombre en une onde sinusoïdale.
Le Résultat : L'auteure a utilisé l'eNTK pour écouter la machine. Les vibrations les plus fortes trouvées par l'eNTK correspondaient parfaitement à la recette de l'« onde sinusoïdale ».
Le Moment du « Grokking » : Il existe un phénomène appelé « grokking », où un modèle passe soudainement de l'échec à la réussite parfaite après une longue période de simple mémorisation. Le papier a constaté que le moment où la machine « grokkait » (comprenait les mathématiques), l'alignement entre les vibrations de l'eNTK et les caractéristiques mathématiques s'envolait. C'est comme si, au moment où la machine comprenait enfin, la chambre d'écho se mettait soudainement à chanter la bonne chanson.

2. La Machine de Mathématiques Légèrement Plus Intelligente (Transformer)

La Tâche : Une machine légèrement plus complexe (un Transformer) a appris le même casse-tête mathématique.
La Différence : Cette machine n'utilisait pas toutes les ondes possibles ; elle en choisissait quelques-unes, aléatoires et spécifiques, pour résoudre le problème.
Le Résultat : Même si la machine choisissait des fréquences aléatoires, l'eNTK les a quand même trouvées. Elle a identifié avec succès les « notes » spécifiques que la machine utilisait pour faire les mathématiques.

3. Le Grand Modèle de Langage (Gemma-3-270M)

La Tâche : Il s'agit d'un véritable modèle de langage pré-entraîné (comme une version miniature de l'IA avec laquelle vous discutez) qui lit des histoires.
Le Défi : Nous ne connaissons pas la « recette secrète » ici. Nous voulons simplement voir si la machine peut détecter la grammaire (comme les noms, les verbes ou le passé).
Le Test : L'auteure a pris un petit ensemble d'histoires et a demandé : « Les vibrations de l'eNTK peuvent-elles nous dire quels mots sont des noms ? »
La Comparaison : Ils ont comparé la méthode eNTK avec la ACP (une méthode standard et plus ancienne qui se contente d'examiner les parties les plus actives de la machine).
Le Résultat : La méthode eNTK était meilleure. Elle a trouvé les « interrupteurs de grammaire » plus précisément que la méthode standard. Par exemple, elle était meilleure pour repérer les « verbes » ou le « passé » que l'ancienne méthode.

La Conclusion Principale

Le papier affirme que l'analyse des « vibrations » du processus d'apprentissage du modèle (via l'eNTK) est une puissante nouvelle lampe de poche.

Elle fonctionne sur des modèles mathématiques simples où nous connaissons la réponse.
Elle fonctionne sur des modèles de langage complexes où nous ne connaissons pas la réponse, et elle trouve des caractéristiques grammaticales mieux que les outils standards actuels.
Elle semble s'allumer exactement au moment où un modèle comprend soudainement un concept (le moment du « grokking »).

Ce Que le Papier Ne Revendique Pas

Il est important de s'en tenir à ce que le papier dit réellement :

Ce n'est pas une panacée : Le papier admet qu'il s'agit de résultats « corrélations ». Le fait que l'eNTK trouve une direction qui ressemble à la « grammaire » ne prouve pas que modifier cette direction corrigera le modèle. C'est un outil de découverte, pas nécessairement encore un panneau de contrôle.
Ce n'est pas lié à la sécurité future de l'IA : Le papier mentionne que cela pourrait être utile pour la sécurité à l'avenir, mais il ne présente aucune application de sécurité ou d'usage clinique. C'est purement une méthode pour comprendre comment les modèles fonctionnent actuellement.
Ce n'est pas parfait : L'expérience sur le modèle de langage a utilisé un ensemble de données relativement petit et un modèle spécifique. L'auteure suggère que nous devons tester cela sur des modèles et des ensembles de données plus grands pour être sûrs.

Résumé en Une Phrase

Ce papier suggère qu'en écoutant les « échos » de la façon dont un réseau de neurones apprend (en utilisant un outil appelé l'eNTK), nous pouvons identifier avec succès les « interrupteurs » cachés que le modèle utilise pour comprendre les mathématiques et la grammaire, les trouvant souvent plus clairement que les méthodes précédentes.

Each language version is independently generated for its own context, not a direct translation.

Résumé technique : Identification de caractéristiques via le NTK empirique

Énoncé du problème

L'interprétabilité mécaniste vise à déconstruire le fonctionnement des réseaux de neurones pour comprendre comment ils traitent l'information, en cherchant spécifiquement à identifier la manière dont les modèles représentent les caractéristiques apprises. Alors que les approches précédentes supposent souvent que les activations de neurones individuels ou des combinaisons linéaires clairsemées de celles-ci constituent des caractéristiques interprétables, la littérature récente suggère que ces méthodes peuvent produire des dictionnaires incomplets ou non canoniques. Par conséquent, il existe un besoin d'approches fondamentalement différentes pour identifier les directions de caractéristiques dans des modèles entraînés, sans s'appuyer sur des hypothèses préalables concernant la nature spécifique de ces caractéristiques.

Ce papier examine si les principales directions propres du Noyau Tangent Neural Empirique (eNTK) peuvent servir de mécanisme pour mettre en évidence ces caractéristiques apprises. Le eNTK est défini comme le noyau formé par la contraction de deux copies du Jacobien du modèle le long de la direction de l'espace des paramètres :
$K_{ij}(x_1, x_2) = \sum_{\mu} \frac{df_i(x_1)}{dW_\mu} \frac{df_j(x_2)}{dW_\mu}$
où $f$ est le réseau de neurones, $W_\mu$ sont les poids, et $i, j$ indexent les classes de sortie. Les auteurs émettent l'hypothèse que les principaux sous-espaces propres de ce noyau, évalués sur un jeu de données, s'alignent avec des directions de caractéristiques réelles ou interprétables, même dans des modèles opérant en dehors du régime d'entraînement « paresseux » où la théorie NTK standard s'applique.

Méthodologie

Les auteurs proposent un algorithme pour calculer et analyser les principales directions propres du eNTK dans trois contextes distincts : un MLP à une couche, un Transformer à une couche et un grand modèle de langage préentraîné (Gemma-3-270M).

1. Construction et réduction du noyau

Le eNTK évalué sur un jeu de données de taille $N$ avec $C$ classes de sortie a une forme de $(N, N, C, C)$ . Pour effectuer une décomposition spectrale, les auteurs emploient deux stratégies de réduction :

eNTK par classe : Analyse du noyau $K_{cc}(x_1, x_2)$ pour des classes spécifiques.
eNTK aplati : Empilement des blocs par classe en une seule matrice de dimension $NC \times NC$ .
eNTK par couche : Somme des produits de Jacobien uniquement sur les paramètres appartenant à une couche spécifique afin d'attribuer des caractéristiques à des composants spécifiques du réseau.

2. Évolutivité via l'itération de Lanczos

Pour les grands modèles où la matérialisation du Jacobien complet ou du eNTK est intraitable (par exemple, les modèles de langage avec de grands vocabulaires), les auteurs utilisent l'itération de Lanczos. Ils approximent les $k$ principales directions propres en effectuant $2k$ étapes de produits matrice-vecteur. Crucialement, ils calculent $Kv = J(J^T v)$ en utilisant des produits vecteur-Jacobien et Jacobien-vecteur via la différenciation automatique, évitant ainsi la construction explicite du Jacobien ou du eNTK.

3. Récupération efficace pour les modèles de langage

Pour l'expérience sur Gemma-3-270M, la taille du vocabulaire ( $d_{vocab}$ ) rend le eNTK aplati au niveau de la couche de sortie computationnellement prohibitif. Les auteurs exploitent la relation linéaire entre le Jacobien de la couche de sortie et le Jacobien de la dernière couche cachée (via la matrice de dé-embedding $U$ ). Ils dérivent un opérateur transformé $\tilde{K} = S^{1/2} K_r S^{1/2}$ (où $K_r$ est le eNTK sur le flux résiduel) qui partage les mêmes valeurs propres que le eNTK de sortie complet mais opère dans l'espace plus petit $d_{model}$ . Cela permet de récupérer les principales directions propres du eNTK sans matérialiser de grands objets de taille vocabulaire.

4. Métrique d'évaluation

Pour valider l'hypothèse, les auteurs mesurent l'alignement entre les sous-espaces propres du eNTK et des vecteurs de caractéristiques « réels » spécifiés indépendamment.

Score d'alignement : Calculé comme la norme de Frobenius au carré entre le sous-espace engendré par les $k$ principaux vecteurs propres du eNTK et le sous-espace engendré par les caractéristiques réelles.
Comparaison avec une base de référence : Dans le contexte du modèle de langage, l'approche eNTK est comparée à une base de référence d'Analyse en Composantes Principales (PCA) effectuée sur les activations du modèle, en utilisant le même budget computationnel (25 directions principales).

Résultats clés

1. MLP sur l'arithmétique modulaire

Dans un MLP à une couche entraîné sur l'addition modulaire ( $mod\ p$ ) présentant un « grokking » (une transition de phase de la mémorisation à la généralisation) :

Structure spectrale : Le spectre du eNTK présente deux « falaises » distinctes (blocs contigus de grandes valeurs propres).
Alignement des caractéristiques : La première falaise (taille $4\lfloor p/2 \rfloor$ ) s'aligne parfaitement avec les caractéristiques de Fourier des variables d'entrée ( $a$ et $b$ ). La deuxième falaise s'aligne avec les caractéristiques de Fourier « somme » et « différence » ( $a+b$ et $a-b$ ) utilisées par la deuxième couche du modèle pour implémenter l'algorithme réel.
Dynamique d'entraînement : L'alignement de la deuxième falaise avec les modes somme/différence est faible à l'initialisation mais augmente de manière régulière, la dérivée première du recouvrement atteignant son maximum près du début de la transition de phase du grokking.

2. Transformer sur l'arithmétique modulaire

Dans un Transformer à une couche entraîné sur la même tâche :

Fréquences clairsemées : Contrairement au MLP, le Transformer apprend des modes de Fourier à un ensemble clairsemé de fréquences aléatoires dépendantes de la graine.
Alignement par couche : Les principaux sous-espaces propres du eNTK par couche s'alignent avec les caractéristiques de Fourier à ces fréquences clés spécifiques.
- Les poids d'entrée du bloc d'attention et du MLP s'alignent avec la somme des caractéristiques de Fourier d'entrée ( $\cos(\omega_k a) + \cos(\omega_k b)$ ).
- Les poids de sortie du MLP et de dé-embedding s'alignent avec les caractéristiques de Fourier « somme » ( $\cos(\omega_k(a+b))$ ).
Dynamique : À l'instar du MLP, l'alignement avec les modes somme augmente pendant l'entraînement, la dérivée atteignant son maximum près de la transition du grokking.

3. Gemma-3-270M sur le langage naturel

Dans le modèle préentraîné Gemma-3-270M évalué sur un jeu de données de fenêtres contextuelles de TinyStories :

Récupération grammaticale : Les principales directions propres du eNTK ont été testées contre des caractéristiques grammaticales générées automatiquement (classes de mots et étiquettes morphologiques comme le temps et le nombre).
Performance : Les directions propres du eNTK surpassent la base de référence PCA sur les activations du modèle pour toutes les caractéristiques de classes de mots et toutes sauf une caractéristique morphologique, mesurées par l'AUROC.
Interprétabilité : L'analyse qualitative des exemples les plus activants pour des directions propres spécifiques (par exemple, « verbe à l'infinitif » ou « verbe au passé composé ») a révélé des interprétations sémantiques cohérentes conformes aux caractéristiques grammaticales cibles.

Importance et affirmations

Le papier affirme que l'analyse spectrale du eNTK fournit une nouvelle approche, théoriquement motivée et empiriquement validée, pour identifier des caractéristiques dans des modèles entraînés.

Au-delà du régime paresseux : Le travail démontre que les structures spectrales du eNTK restent informatives et s'alignent avec des mécanismes réels même dans des modèles qui ne sont pas dans le régime d'entraînement « paresseux » (où la dérive des paramètres est négligeable), un régime où la théorie NTK standard ne s'applique pas strictement.
Supériorité sur la PCA des activations : Dans le contexte du modèle de langage, l'approche eNTK récupère avec succès des caractéristiques grammaticales mieux que la PCA sur les activations, suggérant que la structure du noyau capture des informations sur les caractéristiques que les activations brutes (même réduites via PCA) peuvent masquer.
Surveillance dynamique : L'observation que l'alignement des sous-espaces du eNTK avec les caractéristiques évolue pendant l'entraînement — atteignant spécifiquement un pic de taux de changement près du grokking — suggère que l'analyse spectrale du eNTK pourrait servir d'outil de diagnostic pour surveiller quand des caractéristiques spécifiques sont acquises pendant l'entraînement.

Les auteurs maintiennent une position modeste, notant que leurs résultats sont actuellement corrélationnels. Ils n'ont pas encore démontré que des interventions inspirées du eNTK altèrent causalement le comportement du modèle, et ils reconnaissent les limites concernant l'échelle de l'expérience sur le modèle de langage (Gemma-3-270M est plus petit que les modèles de l'état de l'art) et la simplicité du jeu de données (TinyStories). Cependant, la cohérence des résultats à travers des tâches algorithmiques synthétiques et le langage naturel suggère un potentiel robuste pour l'interprétabilité mécaniste basée sur le eNTK.

Feature Identification via the Empirical NTK