La Vue d'Ensemble : Une Nouvelle Pièce dans une Vieille Maison

Imaginez une bibliothèque massive et hautement intelligente (le Modèle de Base) qui sait déjà écrire, coder et raisonner. Cette bibliothèque possède une manière spécifique d'organiser ses livres et ses pensées, que les chercheurs appellent sa « géométrie interne ».

Maintenant, imaginez que vous voulez enseigner à cette bibliothèque une nouvelle compétence, comme écrire dans un style spécifique ou suivre de nouvelles règles de sécurité. Au lieu de reconstruire toute la bibliothèque, vous ajoutez une petite annexe temporaire. C'est LoRA (Adaptation de Rang Faible). C'est un « adaptateur » léger qui se pose sur le dessus de la bibliothèque originale pour ajuster son comportement sans modifier les livres originaux.

Le Problème : Nous savons que l'annexe change ce que la bibliothèque dit, mais nous ne savons pas vraiment comment elle modifie la pensée interne de la bibliothèque. L'annexe se contente-t-elle de réorganiser les livres existants, ou construit-elle une toute nouvelle aile invisible que la carte de la bibliothèque originale ne montre pas ?

L'Expérience : Le Détective « Delta »

Les chercheurs voulaient voir exactement ce que cette annexe (l'adaptateur LoRA) faisait à l'intérieur du cerveau de la bibliothèque.

La Photo « Avant et Après » : Ils ont pris une photo instantanée des pensées de la bibliothèque avant d'ajouter l'annexe ( $h_{base}$ ) et une autre photo après l'avoir ajoutée ( $h_{adapted}$ ).
La « Différence » ( $h_\Delta$ ) : Ils ont soustrait la photo « avant » de la photo « après ». Le résultat, appelé le Delta, est le pur « fantôme » de l'adaptateur. Il montre uniquement ce que la nouvelle annexe a ajouté, en éliminant tout ce que la bibliothèque originale savait déjà.
Le Traducteur (Autoencodeur Épars) : Pour comprendre ce « fantôme », ils ont utilisé un outil spécial appelé Autoencodeur Épars (SAE). Imaginez un SAE comme un traducteur qui tente de décrire des pensées complexes en utilisant un dictionnaire spécifique de concepts simples et clairs (comme « bonheur », « mathématiques » ou « danger »).

La Découverte : Deux Langues Différentes

Les chercheurs ont entraîné leur traducteur sur deux choses différentes :

Dictionnaire A : Les concepts existants de la bibliothèque originale (SAE pré-entraîné).
Dictionnaire B : Un nouveau dictionnaire entraîné spécifiquement sur le « fantôme » de l'annexe (SAE Delta).

Voici ce qu'ils ont découvert :

1. Le Traducteur a Échoué avec l'Ancien Dictionnaire

Lorsqu'ils ont essayé de décrire les pensées de l'annexe en utilisant le dictionnaire de la bibliothèque originale, le traducteur a échoué lamentablement.

L'Analogie : Imaginez essayer de décrire un nouveau type de fruit alien en utilisant uniquement des mots pour des pommes et des oranges. Vous ne pouvez pas le faire. L'« erreur » était si élevée que le traducteur ne pouvait même pas capturer la forme du fruit.
Le Résultat : Le dictionnaire original était aveugle aux nouvelles caractéristiques créées par l'adaptateur.

2. Le Nouveau Dictionnaire a Fonctionné Parfaitement

Lorsqu'ils ont utilisé le nouveau dictionnaire (entraîné spécifiquement sur l'annexe), il a décrit les pensées parfaitement.

L'Analogie : Ils ont réalisé que l'annexe parlait un dialecte légèrement différent. Une fois qu'ils ont appris ce dialecte spécifique, tout avait du sens.
Le Résultat : L'adaptateur crée son propre « espace de caractéristiques » unique qui est géométriquement distinct du modèle original.

3. Le « Fantôme » Vit dans une Pièce Différente

Les chercheurs ont mesuré l'angle entre les pensées de la bibliothèque originale et celles de l'adaptateur.

L'Analogie : Si les pensées de la bibliothèque originale pointaient vers le Nord, les pensées de l'adaptateur pointaient presque directement vers l'Ouest (environ 74 degrés d'écart). Elles ne sont pas juste légèrement différentes ; elles opèrent dans une direction complètement différente.
Le Résultat : Peu importe la taille de l'adaptateur (en modifiant le « rang » ou la taille de l'annexe), il a toujours construit cette pièce séparée et distincte.

Pourquoi Cela Compte (Selon le Document)

Le document met en évidence un « vide de surveillance » spécifique concernant la sécurité :

Le Point Aveugle : Si vous entraînez un filtre de sécurité sur la bibliothèque originale (le modèle de base) puis que vous attachez un adaptateur de sécurité (LoRA), les outils de sécurité pourraient regarder la mauvaise carte. Ils vérifient le « Nord » de la bibliothèque originale, tandis que l'adaptateur opère vers l'« Ouest ».
Le Risque : Parce que les changements internes de l'adaptateur sont si différents de ceux du modèle de base, les vérifications de sécurité standard pourraient manquer les comportements dangereux que l'adaptateur introduit. L'adaptateur se cache efficacement dans une pièce que les inspecteurs de sécurité ne peuvent pas voir.

Résumé des Principales Conclusions

LoRA n'est pas juste un ajustement ; c'est une nouvelle structure. Il crée des caractéristiques que le dictionnaire du modèle original ne peut pas voir.
La taille ne change pas la direction. Que l'adaptateur soit petit ou grand, il construit toujours cette « pièce » séparée et distincte.
Nous avons besoin de nouvelles cartes. Pour comprendre ou auditer ces modèles adaptés, nous ne pouvons pas simplement utiliser les outils conçus pour le modèle original. Nous devons construire de nouveaux outils (comme le « SAE Delta ») qui regardent spécifiquement ce que l'adaptateur ajoute.

En résumé : L'adaptateur ne se contente pas de réorganiser les meubles dans la maison originale ; il construit une nouvelle aile invisible qui nécessite son propre plan unique pour être comprise.

Résumé Technique : Géométrie des Caractéristiques des Adaptateurs LoRA

Énoncé du Problème

Bien que l'Adaptation de Rang Faible (LoRA) soit la méthode dominante pour le fine-tuning des Grands Modèles de Langage (LLM), les changements représentationnels internes qu'elle induit restent mal compris. Les outils existants d'interprétabilité mécaniste, spécifiquement les Autoencodeurs Creux (SAE), ont été appliqués avec succès aux modèles de base et aux variantes ajustées par RLHF pour décomposer les activations du flux résiduel en caractéristiques creuses et monosémantiques. Cependant, ces outils sont généralement appliqués à la sortie complète du modèle adapté, confondant les représentations du modèle de base avec les contributions spécifiques à l'adaptateur.

Ce manque de granularité crée un vide critique : si les adaptateurs LoRA opèrent dans des sous-espaces représentationnels que les outils d'interprétabilité du modèle de base ne peuvent pas « voir », les audits de sécurité et les analyses d'alignement des modèles fine-tunés peuvent être systématiquement incomplets. De plus, les raisons mécanistes pour lesquelles le fine-tuning de sécurité peut être facilement annulé par une adaptation ultérieure restent inexplorées au niveau des caractéristiques.

Méthodologie : Le Cadre Delta SAE

Pour isoler la contribution spécifique des adaptateurs LoRA, les auteurs introduisent un Cadre d'Activation Delta. Au lieu d'analyser l'activation adaptée complète ( $h_{adapted}$ ), l'étude se concentre sur le delta d'activation :
$h_\Delta = h_{adapted} - h_{base} = \frac{\alpha}{\sqrt{r}} BAx$
Ce delta représente la contribution exacte et mécanistiquement propre de l'adaptateur, débarrassée du signal du modèle de base.

Le pipeline expérimental implique :

Configuration du Modèle : Utilisation de Gemma-2-9B comme modèle de base. Quatre adaptateurs LoRA ont été entraînés avec des rangs $r \in \{4, 8, 16, 32\}$ sur le jeu de données Alpaca (10 000 échantillons), tous les autres hyperparamètres étant fixés pour isoler le rang comme variable.
Extraction du Delta : Des crochets de propagation avant ont capturé les activations du flux résiduel à six couches cibles (5, 10, 18, 22, 32, 38) pour les modèles de base et adaptés afin de calculer $h_\Delta$ .
Entraînement Delta SAE : Des SAE dédiés ont été entraînés exclusivement sur les vecteurs $h_\Delta$ normalisés pour chaque paire (rang, couche). Ceux-ci ont été comparés aux SAE Gemma Scope pré-entraînés (entraînés sur le flux résiduel du modèle de base).
Analyse Géométrique : Trois mesures complémentaires ont été utilisées pour évaluer l'alignement entre les caractéristiques induites par l'adaptateur et les caractéristiques du modèle de base :
- Similarité Cosinus : Similarité maximale entre les directions de décodage du delta SAE et les directions des caractéristiques Gemma Scope.
- Analyse des Angles Principaux : Angles entre les sous-espaces de dimension 256 supérieurs des matrices de décodage du delta SAE et de Gemma Scope.
- Alignement du Noyau Centré (CKA) : Mesure de la similarité représentationnelle entre les ensembles d'activations $h_{base}$ et $h_\Delta$ .

Résultats Clés

1. Échec des SAE de Base à Reconstruire les Signaux d'Adaptateur

Lorsque les SAE Gemma Scope (modèle de base) ont été utilisés pour reconstruire $h_\Delta$ , l'erreur de reconstruction relative a dépassé 1,0 sur toutes les couches et tous les rangs. Cela indique que l'erreur d'approximation du dictionnaire de base est supérieure à l'amplitude du signal de l'adaptateur lui-même. L'erreur était la plus sévère dans les premières couches (Couche 5, $\epsilon \approx 2,3$ ) et s'est légèrement améliorée avec la profondeur, mais est restée élevée.

2. Supériorité des SAE Spécifiques à l'Adaptateur

Les SAE entraînés spécifiquement sur $h_\Delta$ ont nettement surpassé les SAE de base sur des données de test. Les améliorations de reconstruction ont varié de 46,3 % à 86,2 %, démontrant que les adaptateurs LoRA apprennent de véritables structures généralisables qui ne sont pas capturées par le dictionnaire de caractéristiques du modèle de base.

3. Divergence Géométrique

Trois analyses indépendantes ont confirmé que les caractéristiques LoRA occupent un sous-espace géométriquement distinct :

Similarité Cosinus : La similarité cosinus maximale moyenne entre les caractéristiques delta et les caractéristiques de base était d'~0,071, à peine au-dessus de la valeur attendue pour des vecteurs aléatoires en 3 584 dimensions (~0). Seuls 0,01–0,02 % des caractéristiques delta montraient un fort alignement (>0,7) avec les caractéristiques de base.
Angles Principaux : L'angle principal moyen entre les sous-espaces était d'~74°, avec 0 % de directions montrant un alignement (<20°). Environ 66 % du sous-espace était quasi-orthogonal (>70°).
CKA : Le CKA entre $h_{base}$ et $h_\Delta$ était le plus faible à la Couche 18 (la couche de traitement sémantique), chutant à ~0,05–0,08, indiquant une divergence représentationnelle maximale là où le traitement sémantique est concentré.

4. Effets du Rang et de la Profondeur

Densité des Caractéristiques : Le nombre de caractéristiques actives par token augmentait de manière monotone avec la profondeur de la couche et le rang LoRA. Par exemple, à la Couche 38, le rang 4 activait ~30 caractéristiques/token, tandis que le rang 32 en activait ~41.
Stabilité Géométrique : Malgré les changements de densité et de capacité, la nouveauté géométrique fondamentale (mesurée par les angles principaux et la similarité cosinus) restait invariante au rang. Tous les rangs produisaient des représentations géométriquement séparées du modèle de base.
Caractéristiques Faiblement Alignées : Plus de 93 % des caractéristiques activées par $h_\Delta$ étaient « faiblement alignées » (actives uniquement sur le delta, pas sur la base), une fraction qui restait cohérente à travers tous les rangs et toutes les couches.

Signification et Revendications

L'article revendique fournir la première analyse mécaniste systématique de la géométrie des caractéristiques LoRA. La contribution principale est l'identification d'un « vide de surveillance » : les outils d'interprétabilité entraînés uniquement sur les activations du modèle de base sont systématiquement aveugles aux contributions représentationnelles des adaptateurs LoRA.

Les auteurs soutiennent que :

Les Audits de Sécurité sont Incomplets : Si une organisation déploie un modèle LoRA fine-tuné pour la sécurité, les audits standard basés sur les SAE peuvent ne pas détecter les représentations encodées par l'adaptateur car le dictionnaire de base ne peut pas reconstruire le signal delta.
Explication Mécaniste de la Fragilité : La séparation géométrique offre une explication mécaniste de la raison pour laquelle le fine-tuning de sécurité peut être facilement annulé ; un fine-tuning ultérieur peut simplement déplacer le modèle vers un sous-espace distinct que les contraintes de sécurité originales (encodées dans la géométrie de base) ne surveillent pas efficacement.
Solution Méthodologique : Le Cadre Delta SAE est proposé comme un outil nécessaire pour l'audit au niveau des caractéristiques des modèles fine-tunés, permettant l'isolement et l'analyse des contributions spécifiques à l'adaptateur.

L'étude conclut que si les adaptateurs LoRA augmentent la capacité représentationnelle (densité) avec des rangs plus élevés, ils opèrent fondamentalement dans un sous-espace géométrique distinct, nécessitant de nouvelles approches d'interprétabilité pour les modèles fine-tunés.

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models