Structural Inference: Interpreting Small Language Models with Susceptibilities

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de ce papier de recherche, imaginée comme une histoire simple, en français.

🕵️‍♂️ L'Enquête : Comment lire les pensées d'une petite intelligence artificielle ?

Imaginez que vous avez un petit robot (une "petite" intelligence artificielle de 3 millions de paramètres) qui a lu des millions de livres, de codes informatiques et d'articles scientifiques. Ce robot est une boîte noire : vous lui donnez un texte, il répond, mais vous ne savez pas comment il réfléchit à l'intérieur.

Les chercheurs de ce papier (Garrett Baker et son équipe) ont inventé une nouvelle méthode pour ouvrir cette boîte noire sans la casser. Ils appellent cette méthode "l'inférence structurelle" (Structural Inference), mais pour faire simple, on peut l'appeler "la méthode des élastiques" ou "la méthode des résonances".

1. Le Concept : Le Robot comme un Système Physique

Pour comprendre leur idée, imaginez le robot non pas comme un ordinateur, mais comme un objet physique complexe, un peu comme un morceau de métal ou un aimant.

La situation normale : Le robot est tranquille, il a appris sur un mélange de tout (le "Pile", une énorme base de données).
Le test (la perturbation) : Les chercheurs changent légèrement l'environnement du robot. Par exemple, ils lui disent : "Eh bien, oublie un peu les livres de cuisine, concentre-toi uniquement sur les codes de programmation (GitHub) ou les textes juridiques." C'est comme si on approchait un aimant puissant d'un morceau de métal.

2. La Réaction : La "Susceptibilité"

En physique, quand on approche un aimant d'un métal, le métal réagit. Certains atomes s'alignent, d'autres résistent. Cette réaction s'appelle la susceptibilité.

Dans ce papier, les chercheurs observent comment les différentes parties du cerveau du robot (appelées "têtes d'attention") réagissent à ce changement de sujet :

Réaction positive (Verte) : La partie du robot dit : "Ah ! J'adore ça ! Je vais m'activer pour prédire ce mot !". C'est ce qu'ils appellent l'expression.
Réaction négative (Rouge) : La partie du robot dit : "Non, non, arrête ! Je vais freiner cette prédiction car ce n'est pas mon rôle.". C'est ce qu'ils appellent la suppression.

C'est comme si vous demandiez à une équipe de cuisine de préparer un repas :

Le chef des pâtes devient très excité si vous parlez d'Italie (réaction positive).
Le chef des desserts devient triste et essaie de freiner la conversation sur les pâtes (réaction négative).

3. La Découverte : Trouver les "Circuits" cachés

En mesurant ces réactions pour des milliers de mots différents, les chercheurs ont créé une grande carte de réactions. En utilisant des mathématiques simples (comme trier des couleurs), ils ont découvert que le robot n'est pas un chaos, mais qu'il a une architecture très organisée.

Ils ont trouvé des "équipes" spécialisées :

L'équipe "Induction" : C'est une équipe secrète qui adore repérer les répétitions. Si vous écrivez "Le chat miaule, le chien aboie, le chat...", cette équipe sait immédiatement que le mot suivant sera "miaule". Elle est très sensible aux motifs qui se répètent.
L'équipe "Segmentation" : Une autre équipe s'occupe de savoir où commence et où finit un mot, comme un éditeur de texte qui met des espaces.
L'équipe "Parenthèses" : Une équipe qui vérifie que les parenthèses sont bien fermées.

Le plus cool ? Ils ont pu voir que certaines équipes s'opposent aux autres. Par exemple, l'équipe "Induction" veut répéter un motif, mais une autre équipe essaie de l'empêcher de le faire pour ne pas faire d'erreur. C'est un débat constant à l'intérieur du cerveau du robot !

4. Pourquoi c'est génial ?

Avant, pour comprendre ces robots, il fallait faire des "autopsies" : on coupait une partie du cerveau (on désactivait une pièce) et on voyait si le robot tombait en panne. C'était brutal et parfois trompeur (le robot pouvait se réparer tout seul !).

Cette nouvelle méthode est plus douce :

Elle ne coupe rien.
Elle observe juste comment le robot résonne quand on change légèrement le sujet.
Elle permet de voir la "musique" interne du robot : qui chante quoi, et qui fait le silence.

En résumé

Imaginez que vous êtes dans une grande salle de concert remplie de musiciens (les différentes parties du robot). Au lieu de demander à chaque musicien de jouer un solo (ce qui est long et bruyant), vous changez simplement la lumière de la salle (le sujet de discussion).

En regardant qui s'illumine (réagit positivement) et qui s'assombrit (réagit négativement), vous pouvez comprendre instantanément quel groupe joue la mélodie principale, qui joue la basse, et qui essaie de calmer le jeu.

C'est exactement ce que fait ce papier : il utilise la physique et les statistiques pour écouter la "musique" cachée des intelligences artificielles, sans avoir besoin de les démonter.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Structural Inference: Interpreting Small Language Models with Susceptibilities", publié à la conférence ICLR 2026.

1. Problématique

La structure microscopique interne des réseaux de neurones, qui sous-tend leurs comportements complexes, reste mal comprise. Les méthodes d'interprétabilité mécanistique actuelles (comme les ablations ou les fonctions d'influence) souffrent souvent de limitations : les ablations peuvent être masquées par des phénomènes d'auto-réparation (self-repair), et les fonctions d'influence classiques ne capturent pas toujours la sensibilité fine des composants du modèle aux changements de la distribution des données.

L'article propose de combler ce vide en traitant le réseau de neurones non pas comme une boîte noire statique, mais comme un système statistique mécanique bayésien. L'objectif est de développer un cadre théorique pour quantifier comment les composants internes (comme les têtes d'attention) réagissent de manière linéaire à de petites perturbations de la distribution des données d'entraînement.

2. Méthodologie : Le Cadre des Susceptibilités

Les auteurs introduisent le concept de susceptibilité, inspiré de la physique de la matière condensée (analogie avec la susceptibilité magnétique).

A. Fondements Théoriques

Système Bayésien : Le modèle est défini par un triplet (vérité $q$ , modèle $p$ , a priori $\phi$ ). La distribution a posteriori est modifiée par une perturbation infinitésimale de la distribution des données $q \to q_h$ .
Définition de la Susceptibilité ( $\chi$ ) : C'est la dérivée première de l'espérance d'une observable $\phi(w)$ (fonction des poids) par rapport à la perturbation de la distribution des données, évaluée à température inverse $\beta$ .
$\chi = \frac{1}{n\beta} \frac{\partial}{\partial h} \langle \phi \rangle_{\beta, h} \bigg|_{h=0}$
Formule de Calcul (Lemme 2.2) : La susceptibilité se calcule comme la covariance négative entre l'observable et la variation de la perte ( $\Delta L$ ) sous la distribution a posteriori non perturbée :
$\chi = -\text{Cov}_{\beta}[\phi, \Delta L]$
Interprétation Physique :
- Susceptibilité Négative (Expression) : Le composant favorise la prédiction du token dans ce contexte (variations qui réduisent la perte globale augmentent aussi la probabilité du token).
- Susceptibilité Positive (Suppression) : Le composant inhibe la prédiction du token (variations qui réduisent la perte globale diminuent la probabilité du token, ou inversement).

B. Estimation Pratique (Local Susceptibility)

Comme l'échantillonnage de l'a posteriori global est impossible, les auteurs utilisent une susceptibilité localisée :

Localisation : On remplace l'a priori global par un a priori gaussien centré sur un minimiseur local des poids $w^*$ (obtenu par entraînement standard).
Échantillonnage : Utilisation de SGLD (Stochastic Gradient Langevin Dynamics) pour échantillonner autour de $w^*$ .
Estimation : On calcule la covariance empirique entre la perte locale et la variation de perte induite par un mélange de données (données originales + données "probe" comme du code GitHub ou du texte juridique).

C. Inférence Structurelle

Les susceptibilités sont organisées en une matrice de réponse ( $X$ ) où les lignes sont des distributions de données (ou des tokens) et les colonnes sont les composants du modèle (têtes d'attention).

Analyse par PCA : Une décomposition en valeurs singulières (SVD) ou une Analyse en Composantes Principales (PCA) de cette matrice permet de révéler la structure interne.
Facteurisation : La matrice $X$ est approximée par $X = CP$ , où $C$ représente le couplage entre les modes de données et les distributions, et $P$ le couplage entre les observables (têtes) et ces modes.

3. Contributions Clés

Nouveau Paradigme d'Interprétabilité : Passage d'une analyse basée sur l'intervention directe (ablation) à une analyse basée sur la réponse linéaire aux perturbations de données, ancrée dans la théorie de l'apprentissage singulier (Singular Learning Theory).
Définition de l'Expression et de la Suppression : Une interprétation rigoureuse du signe de la susceptibilité, permettant de distinguer les composants qui "promouvoient" une prédiction de ceux qui l'"inhibent".
Méthode d'Inférence Structurelle : Une technique scalable utilisant la PCA sur les matrices de susceptibilité pour découvrir des circuits fonctionnels sans hypothèse préalable forte.
Validation Empirique : Application réussie sur un modèle Transformer de 3M paramètres entraîné sur un sous-ensemble de The Pile.

4. Résultats Expérimentaux

L'application de cette méthode sur un modèle 2 couches (sans couches MLP) a permis de :

Identifier des Circuits Connus : La PCA a isolé le circuit d'induction (induction circuit).
- La deuxième composante principale (PC2) sépare clairement les têtes d'induction (qui expriment les motifs d'induction) des têtes "multigrammes" de la couche 1 (qui les suppriment).
- Cela confirme et étend les travaux précédents (Wang et al., 2024 ; Hoogland et al., 2025).
Découvrir de Nouvelles Structures :
- PC1 (Segmentation de mots) : Une réponse uniforme liée à la segmentation des tokens en mots (début, milieu, fin de mot).
- PC3 (Appariement de parenthèses) : Identification de têtes impliquées dans la prédiction de délimiteurs droits (Dyck heads), confirmant des résultats d'ablation antérieurs.
Analyse Token par Token : Les susceptibilités par token révèlent des motifs complexes, comme la bimodalité de certains tokens (ex: le mot "to" ou le caractère "/") selon le contexte (commandes LaTeX vs texte naturel, URLs vs constructions "either/or").
Robustesse : Les résultats sont cohérents sur plusieurs graines d'entraînement (seeds) et via une analyse de trajectoire sur l'ensemble de l'entraînement.

5. Signification et Impact

Lien Théorique Profond : Ce travail établit un pont solide entre la théorie de l'apprentissage statistique (coefficients d'apprentissage locaux, géométrie du paysage de perte) et l'interprétabilité mécanistique.
Alternative aux Ablations : Contrairement aux ablations qui peuvent être contrecarrées par des mécanismes de réparation, les susceptibilités mesurent la sensibilité intrinsèque du modèle, offrant une vue plus stable de la fonction des composants.
Évolutivité : Bien que testé sur un petit modèle, la méthode utilise SGLD, qui est scalable. Les auteurs estiment que l'approche est applicable à des modèles plus grands (jusqu'à 1.4B de paramètres dans des travaux préliminaires), avec des coûts de calcul comparables à l'entraînement ou aux ablations.
Compréhension de la Dynamique : La méthode permet de comprendre comment les modèles équilibrent l'expression et la suppression d'informations, un aspect crucial pour la sécurité et la fiabilité des LLM.

En résumé, cet article propose une "radiographie" des réseaux de neurones basée sur leur réponse aux changements de données, révélant une organisation interne fonctionnelle cohérente avec les théories physiques et statistiques, tout en validant empiriquement des circuits neuronaux connus et en en découvrant de nouveaux.