Stable and Steerable Sparse Autoencoders with Weight Regularization

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre comment fonctionne un cerveau d'intelligence artificielle (une IA). Pour cela, les chercheurs utilisent un outil appelé Autoencodeur Sparse (SAE).

On peut imaginer ce SAE comme un traducteur ou un dictionnaire. Son travail est de prendre le langage complexe et confus de l'IA (ses "pensées" internes) et de le traduire en concepts humains simples et clairs, comme "le mot 'chat'", "une phrase triste" ou "une erreur de grammaire".

Le problème, c'est que ce traducteur est très capricieux. Si vous le faites entraîner deux fois de suite avec des paramètres légèrement différents (comme changer la graine aléatoire, un peu comme changer la date de naissance du modèle), il vous donne deux dictionnaires totalement différents. Un jour, il traduit une pensée par "chat", le lendemain par "animal". C'est frustrant et peu fiable.

L'idée de l'article :
Les auteurs (Piotr et Oliver) se sont dit : "Et si on ajoutait une petite règle stricte pour forcer ce traducteur à être plus stable ?"

Ils ont ajouté une régularisation de poids (une sorte de "frein" ou de "contrainte" mathématique) pendant l'entraînement. Voici comment cela fonctionne, expliqué avec des analogies simples :

1. Le problème : Le chaos dans le dictionnaire

Sans cette règle, le SAE est comme un étudiant qui apprend par cœur sans méthode. Il trouve des solutions qui fonctionnent pour l'exercice, mais qui sont différentes à chaque fois.

Résultat : Vous ne savez jamais si le concept que vous voyez est réel ou juste un hasard de l'entraînement.

2. La solution : Le "Frein" (Régularisation L2)

Les chercheurs ont ajouté un petit "poids" (une pénalité) qui pousse le modèle à garder ses connexions internes simples et petites, plutôt que de les faire grossir de manière désordonnée.

L'analogie du jardin : Imaginez que le SAE est un jardinier qui doit tailler une haie. Sans règle, il taille n'importe comment, créant des formes bizarres et différentes à chaque fois. Avec la régularisation, c'est comme si on lui donnait un guide de taille strict. Il est obligé de garder les branches (les concepts) bien droites et alignées.

3. Ce qui se passe quand on ajoute ce "frein"

A. Une stabilité incroyable (Le "Cœur Aligné")

Sur des images simples (comme les chiffres MNIST), ils ont vu apparaître un "cœur" de concepts très stables.

L'analogie : C'est comme si, après avoir ajouté le frein, tous les traducteurs, peu importe leur date de naissance, s'accordaient sur les 20% de concepts les plus importants (comme les traits de base d'un visage). Ces concepts sont toujours les mêmes, peu importe qui entraîne le modèle. C'est comme si on avait trouvé la "vraie" liste des ingrédients essentiels d'une recette, au lieu d'avoir des listes qui changent à chaque fois.

B. Meilleur contrôle (Le "Steering")

Le but ultime de ces outils est de pouvoir pousser l'IA dans une direction précise (par exemple, la forcer à être plus gentille ou à éviter un sujet).

Le résultat : Avec la régularisation, le taux de réussite de ce "poussage" a doublé.
L'analogie : Avant, essayer de diriger l'IA était comme essayer de conduire une voiture avec des roues qui glissent sur la glace : vous tournez le volant, mais la voiture va n'importe où. Avec la régularisation, c'est comme si on avait posé des pneus d'hiver : quand vous tournez le volant, la voiture suit vraiment votre direction.

C. La cohérence entre ce qu'on dit et ce que ça fait

Avant, il y avait un décalage : un concept pouvait sembler très clair dans le texte ("ce concept parle de chats") mais ne pas fonctionner du tout quand on essayait de l'utiliser pour contrôler l'IA.

Le changement : La régularisation a rapproché ces deux mondes. Si le texte dit "c'est un concept de chat", alors le contrôle fonctionne vraiment pour les chats. C'est comme si le manuel d'instructions correspondait enfin à la réalité de la machine.

En résumé

Les chercheurs ont découvert qu'en ajoutant une petite contrainte mathématique simple (la régularisation L2) à l'entraînement de ces outils d'interprétation, on obtient :

Plus de fiabilité : Les concepts trouvés sont les mêmes, peu importe qui entraîne le modèle.
Plus de contrôle : On peut mieux guider l'IA.
Plus de vérité : Ce que le modèle "dit" être un concept correspond mieux à ce qu'il "fait" réellement.

C'est comme passer d'un groupe de musiciens qui improvisent chacun de leur côté (chaotique et imprévisible) à un orchestre dirigé par un chef d'orchestre strict (régularisé), où chaque musicien joue la bonne note, au bon moment, et où le résultat est toujours cohérent et maîtrisable.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Autoencodeurs Epars (SAE) sont devenus un outil central en interprétabilité mécanistique pour extraire des caractéristiques (features) interprétables des activations des réseaux de neurones. Cependant, leur fiabilité est remise en question par deux problèmes majeurs :

Instabilité entre les graines aléatoires : Des SAEs entraînés sur les mêmes données mais avec différentes graines aléatoires apprennent des ensembles de caractéristiques substantiellement différents.
Manque de reproductibilité : Cette variabilité suggère un problème d'optimisation sous-déterminé, où la seule contrainte de parcimonie des activations ne suffit pas à garantir une solution unique.
Écart entre interprétabilité et fonctionnalité : Il existe souvent une divergence entre ce qu'une caractéristique semble représenter (selon des scores d'auto-interprétabilité textuelle) et ce qu'elle fait réellement (sa capacité à contrôler le comportement du modèle via le "steering" ou orientation).

L'objectif de l'article est d'étudier si l'ajout d'une régularisation explicite des poids (en plus de la pénalité de parcimonie des activations) peut améliorer la stabilité, la reproductibilité et l'utilité fonctionnelle des SAE.

2. Méthodologie

Les auteurs ont ajouté un terme de régularisation de poids ( $L_w$ ) à la fonction de perte standard des SAE.

Fonction de perte modifiée :
$L = L_{recon}(x, \hat{x}) + \lambda_{sparse} L_{sparse}(z) + \lambda_w (\|W_{enc}\|_p^p + \|W_{dec}\|_p^p)$
Où $p \in \{1, 2\}$ (régularisation L1 ou L2) et $\lambda_w$ est le coefficient de régularisation.
Expériences sur MNIST (Modèle jouet) :
- Entraînement sur des images MNIST (784 dimensions) avec 1568 latents.
- Comparaison de différentes configurations : initialisation liée (tied initialization), contraintes de norme unitaire sur le décodeur, et types de régularisation (L1 vs L2).
- Mesure de la similarité cosinus entre les encodeurs/décodeurs de différents SAEs entraînés avec différentes graines.
Expériences sur Modèle de Langage (Pythia-70M) :
- Entraînement sur les activations du résidu de la couche 3 du modèle Pythia-70M-deduped.
- Utilisation de l'architecture SAEBench avec différents mécanismes de parcimonie : TopK, BatchTopK et Matryoshka.
- Évaluation via trois axes :
  1. Reproductibilité : Fraction de caractéristiques partagées entre trois graines aléatoires (critère strict : appariement hongrois avec similarité > 0.7).
  2. Qualité des caractéristiques : Scores d'auto-interprétabilité automatisée.
  3. Orientation (Steering) : Injection de vecteurs de décodeur dans le flux résiduel pour orienter la génération de texte, évaluée par un juge LLM (GPT-5.1).

3. Contributions Clés et Résultats

A. Stabilité et Cohérence entre Graines (Cross-seed Consistency)

Sur MNIST : L'ajout d'une régularisation L2 combinée à une initialisation liée et à des contraintes de norme unitaire sur le décodeur crée un "noyau aligné" de caractéristiques.
- Sans régularisation, la fraction de caractéristiques partagées est proche de 0 %.
- Avec régularisation L2, cette fraction passe à 22,5 % pour les caractéristiques actives (alive features).
- Les caractéristiques partagées sont visuellement plus interprétables (traces nettes, courbes) que les caractéristiques aléatoires.
Sur Pythia-70M (TopK) : La régularisation L2 améliore drastiquement la reproductibilité.
- La fraction de caractéristiques strictement partagées parmi les caractéristiques actives augmente de < 2 % à ~35 % (plus de 10 fois).
- La similarité cosinus moyenne maximale entre les graines double (de ~0,32 à ~0,7).

B. Amélioration de l'Orientation (Steering)

Le taux de réussite de l'orientation (score du juge $\ge$ 4) est presque doublé grâce à la régularisation L2 (passant de 6,3 % à 13,0 %).
Corrélation Interprétabilité-Orientation : Sans régularisation, la corrélation entre le score d'auto-interprétabilité et le succès de l'orientation est faible ( $r=0,06$ ). Avec la régularisation L2, cette corrélation devient significative ( $r=0,144$ ). Cela suggère que la régularisation aligne mieux l'explication textuelle d'une caractéristique avec sa fonctionnalité réelle.

C. Analyse Architecturale et Mécanismes

Effet de la régularisation L2 : Elle tend à "tuer" (réduire à zéro) la majorité des latents (environ 90 % dans certains cas), agissant comme une sélection de modèle implicite.
Orthogonalité du décodeur :
- À faible parcimonie ( $k=40$ ), l'amélioration du steering provient principalement de l'élagage du dictionnaire (réduction des interférences hors cible).
- À parcimonie plus élevée ( $k \ge 80$ ), les caractéristiques survivantes deviennent géométriquement plus orthogonales entre elles que dans un dictionnaire non régulé, indiquant un désenchevêtrement (disentanglement) réel.
Interaction avec l'architecture : L'effet de la régularisation dépend du mécanisme de parcimonie. TopK avec L2 produit une distribution bimodale (un noyau d'alignement fort + beaucoup de morts), tandis que BatchTopK montre un décalage général vers des similarités plus faibles sans structure bimodale.

4. Signification et Implications

Stabilité des SAE : La régularisation des poids (surtout L2) est une méthode simple et efficace pour résoudre le problème de la non-reproductibilité des SAE, rendant les résultats plus fiables pour la recherche en interprétabilité.
Alignement Fonctionnel : En améliorant la corrélation entre ce qu'une caractéristique "dit" (interprétabilité) et ce qu'elle "fait" (contrôle), la régularisation comble partiellement l'écart critique entre l'interprétabilité textuelle et le contrôle fonctionnel.
Sélection de Caractéristiques : L'observation que la régularisation L2 élimine la redondance et converge vers un sous-ensemble compact de caractéristiques de haute qualité suggère que les dictionnaires SAE standards contiennent une redondance substantielle. Cela soutient l'idée que le nombre réel de caractéristiques récupérables de manière fiable est bien inférieur à la taille nominale du dictionnaire.
Applications Scientifiques : Pour les domaines où l'évaluation humaine est difficile (ex: modèles de génomique ou de protéines), l'amélioration du taux de réussite de l'orientation est cruciale. Cela réduit le coût de validation manuelle en éliminant les caractéristiques non orientables.

Conclusion

L'article démontre que l'ajout d'une simple pénalité de régularisation de poids (L2) aux SAEs améliore considérablement leur stabilité, leur reproductibilité et leur utilité pratique pour l'orientation des modèles. Cette approche agit comme un mécanisme de sélection implicite, favorisant un sous-ensemble de caractéristiques mono-sémantiques, stables et fonctionnellement fidèles, tout en renforçant le lien entre leur description textuelle et leur comportement.