On the Non-Identifiability of Steering Vectors in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Secret des "Bâtons de Magie" des IA

Imaginez que les grands modèles de langage (comme ceux qui écrivent des textes ou répondent à des questions) sont comme de gigantesques orchestres symphoniques. Chaque musicien joue une note précise pour créer la mélodie finale.

Récemment, les chercheurs ont découvert un moyen de "diriger" ces orchestres en ajoutant un petit bâton de magie (appelé vecteur de pilotage ou steering vector) aux notes jouées par les musiciens.

Si vous ajoutez ce bâton, l'orchestre joue soudainement en mode "très poli".
Si vous en changez un autre, l'orchestre devient "drôle" ou "sérieux".

Jusqu'à présent, tout le monde pensait que ce bâton de magie était unique. On croyait qu'il existait une seule direction précise dans le cerveau de l'IA qui correspondait à la "politesse", comme une seule clé qui ouvre une seule porte.

🚫 La Révélation : Il n'y a pas une seule clé, mais des milliers !

Ce papier de recherche (Venkatesh et Mahendran) dit : "Attendez une minute. Ce n'est pas vrai."

Ils prouvent mathématiquement et expérimentalement que ce bâton de magie n'est pas unique. En fait, il existe une infinité de directions différentes qui produisent exactement le même résultat.

L'analogie du Brouillard et de la Montagne

Imaginez que vous êtes en haut d'une montagne dans un épais brouillard (c'est le modèle de l'IA). Vous voulez descendre vers la vallée (le résultat "poli").

L'ancienne croyance : Il n'y a qu'un seul sentier précis pour arriver en bas. Si vous trouvez ce sentier, vous êtes sûr d'avoir trouvé la "véritable" direction de la politesse.
La découverte de ce papier : En réalité, il y a des milliers de sentiers différents qui descendent tous vers la même vallée. Si vous choisissez un sentier un peu à gauche, ou un peu à droite, ou même un chemin qui fait des zigzags, vous arrivez exactement au même endroit.

Le papier montre que les chercheurs, en cherchant le "sentier de la politesse", ne trouvent qu'un chemin parmi des milliers d'autres qui fonctionnent aussi bien. Ils ne peuvent pas savoir lequel est le "vrai" chemin de la politesse, car tous mènent au même résultat.

🧪 L'Expérience : Le Test du "Bâton Tordu"

Pour le prouver, les chercheurs ont fait une expérience simple mais géniale sur deux modèles d'IA (Qwen et Llama) :

Ils ont trouvé un "bâton de magie" standard pour rendre l'IA polie.
Ensuite, ils ont pris ce bâton et y ont ajouté un petit morceau perpendiculaire (comme si on courbait légèrement le bâton dans une direction qui ne devrait pas servir).
Le résultat ? L'IA est devenue tout aussi polie avec le bâton tordu qu'avec le bâton droit !

C'est comme si vous essayiez de régler la température d'une douche. Vous pensez que tourner le robinet vers la gauche est la seule façon d'avoir de l'eau chaude. Mais ils ont découvert que vous pouvez aussi tourner le robinet vers la gauche, tout en le tordant légèrement vers le haut, et l'eau sera exactement aussi chaude.

💡 Pourquoi est-ce important ?

Cela change la façon dont nous comprenons l'intelligence artificielle :

On ne peut pas lire les pensées de l'IA : Si vous trouvez un vecteur qui rend l'IA "honnête", vous ne pouvez pas dire avec certitude : "Ah, c'est ici que l'honnêteté est stockée !" Non, c'est juste un des nombreux chemins possibles. L'IA pourrait très bien utiliser un chemin totalement différent pour faire la même chose.
C'est fragile : Si vous changez un peu le modèle de l'IA (une mise à jour), le "chemin" que vous aviez trouvé pourrait disparaître, même si l'IA reste capable d'être polie. C'est comme si vous aviez trouvé un sentier dans la forêt, mais que la forêt a changé, et votre sentier n'existe plus, même si la vallée est toujours là.
Il faut plus que des tests : On ne peut pas se fier uniquement à ce que l'IA dit ou fait pour comprendre comment elle pense. Il faut regarder la structure interne de l'IA pour trouver des règles plus solides.

🏁 En résumé

Ce papier nous dit que contrôler le comportement d'une IA est facile, mais comprendre pourquoi ça marche est beaucoup plus difficile.

Nous avons l'impression de tenir le "levier de commande" unique, mais en réalité, nous tenons juste un des nombreux leviers qui fonctionnent par hasard. C'est une leçon d'humilité pour les chercheurs : nous ne pouvons pas encore prétendre avoir cartographié la "conscience" ou les "concepts" de l'IA de manière unique, car l'IA a trop de façons différentes d'arriver au même résultat.

La morale de l'histoire : Ne confondez pas "ça marche" avec "c'est la seule façon de faire". L'IA est plus flexible et plus mystérieuse que nous ne le pensions.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les méthodes de pilotage d'activation (activation steering) sont devenues une technique populaire pour contrôler le comportement des Grands Modèles de Langage (LLM). Elles consistent à ajouter des vecteurs directionnels appris aux activations intermédiaires du modèle pour modifier des traits sémantiques (ex. : formalité, politesse, ton).

Cependant, ces méthodes reposent sur une hypothèse implicite souvent non vérifiée : l'identifiabilité. Les chercheurs supposent généralement que le vecteur de pilotage extrait correspond à un facteur latent unique et significatif, et qu'il est le seul vecteur capable de produire un effet comportemental donné.

Le problème central soulevé par les auteurs est le suivant : les vecteurs de pilotage sont-ils réellement identifiables à partir du comportement entrée-sortie du modèle ? Ou existe-t-il une infinité de vecteurs géométriquement distincts qui produisent exactement le même comportement observable, rendant l'interprétation causale de ces vecteurs fondamentalement incertaine ?

2. Méthodologie

Les auteurs adoptent une approche combinant une analyse théorique formelle et une validation empirique rigoureuse.

A. Cadre Théorique

Modèle : Ils considèrent un modèle de transformateur pré-entraîné $f_\theta$ avec $L$ couches.
Intervention : L'ajout d'un vecteur de pilotage $v$ à l'activation d'une couche $\ell$ : $\tilde{h}_\ell(x) = h_\ell(x) + \alpha v$ .
Hypothèses :
- Approximation linéaire locale : L'effet du pilotage sur les logits de sortie est approximé par la matrice Jacobienne $J_\ell(x) = \frac{\partial o}{\partial h_\ell}$ .
- Accès "Boîte Blanche" (Regime 2) : L'observateur a accès aux activations d'une couche spécifique, ce qui est le cadre standard de la recherche actuelle sur le pilotage.
Analyse de l'Identifiabilité : Ils définissent l'équivalence observationnelle. Deux vecteurs $v$ et $v'$ sont équivalents s'ils produisent la même distribution de sorties pour toutes les entrées et toutes les forces de pilotage $\alpha$ .

B. Validation Empirique

Pour tester la prédiction théorique, les auteurs ont conçu des expériences sur deux modèles (Qwen2.5-3B et Llama-3.1-8B) et trois traits sémantiques (Formalité, Politesse, Humour).

Extraction des vecteurs : Calcul de vecteurs de base $v$ à partir de paires de prompts contrastifs.
Test de perturbation orthogonale : Ils génèrent des vecteurs perturbés $v' = v + v_\perp$ , où $v_\perp$ est un vecteur aléatoire orthogonal à $v$ (et donc, théoriquement, appartenant au noyau de la Jacobienne ou proche de celui-ci).
Mesures :
- Taille de l'effet (Cohen's d) : Comparaison des scores sémantiques entre les sorties générées par $v$ et $v'$ .
- Analyse des Logits : Mesure de la distance $\ell_2$ entre les vecteurs de logits pour vérifier la stabilité des distributions de probabilité.
- Robustesse : Tests sous différents régimes de distribution (changement de sujet, de genre, de style de sécurité).

3. Contributions Clés

Preuve de Non-Identifiabilité Théorique :
Les auteurs démontrent formellement que, sous l'approximation linéaire locale et sans contraintes structurelles supplémentaires, les vecteurs de pilotage sont fondamentalement non identifiables.
- Mécanisme : L'ambiguïté de l'espace nul (Null-space ambiguity). Si $v_0 \in \ker(J_\ell)$ , alors $J_\ell v_0 = 0$ . Par conséquent, le vecteur $v' = v + v_0$ produit le même changement de logits que $v$ .
- Conséquence : Dans les modèles sur-paramétrés, la dimension de l'espace nul est non triviale ( $d - \text{rank}(J_\ell) \ge 1$ ), ce qui implique l'existence d'une classe d'équivalence infinie de vecteurs géométriquement distincts mais comportementalement identiques.
Validation Empirique de l'Équivalence :
Les expériences montrent que les perturbations orthogonales ( $v + v_\perp$ ) conservent une efficacité quasi totale par rapport au vecteur original.
- Les vecteurs purement orthogonaux ( $v_\perp$ seuls) atteignent 95 % à 100 % de l'efficacité du vecteur original.
- La taille de l'effet (Cohen's d) entre $v$ et $v + v_\perp$ est négligeable (souvent < 0.1), indiquant une équivalence observationnelle forte.
Robustesse Géométrique :
La non-identifiabilité persiste même sous des déplacements de distribution (changement de contexte, de domaine ou de style). Cela prouve que le phénomène est une propriété géométrique structurelle du modèle (liée aux poids et à la Jacobienne) et non un artefact dû à un manque de diversité dans les prompts d'entraînement.

4. Résultats Principaux

Équivalence Observationnelle : Pour Qwen2.5-3B et Llama-3.1-8B, les vecteurs perturbés orthogonalement produisent des scores sémantiques statistiquement indiscernables des vecteurs originaux.
Invariance d'Échelle : L'équivalence tient sur une large gamme de forces de pilotage ( $\alpha \in [0.0, 2.0]$ ).
Analyse des Logits : Les vecteurs orthogonaux induisent des déviations de logits systématiquement plus faibles que des directions aléatoires, confirmant que la perturbation orthogonale préserve la structure de sortie du modèle.
Limite des Données : L'ajout de plus de données (plus de prompts) ne résout pas le problème. Si tous les prompts sondent le même sous-espace effectif, l'intersection des espaces nuls reste non triviale, rendant l'ambiguïté insoluble par la seule collecte de données.

5. Signification et Implications

Ce travail remet en question les fondements théoriques de l'interprétabilité des LLM via le pilotage :

Limites de l'Interprétabilité : L'affirmation qu'un vecteur spécifique "représente" un concept (ex. : la vérité) n'est pas scientifiquement fondée sans contraintes structurelles supplémentaires. Un vecteur trouvé peut être un artefact géométrique parmi une infinité d'autres options équivalentes.
Contrôle vs Compréhension : Les méthodes de pilotage sont efficaces pour le contrôle heuristique (modifier le comportement), mais elles échouent à fournir une compréhension causale fiable des représentations internes.
Nécessité de Contraintes Structurelles : Pour obtenir des vecteurs identifiables et interprétables, il faut aller au-delà du test comportemental (entrée-sortie). Il est nécessaire d'imposer des contraintes structurelles (ex. : indépendance statistique, régularisation par parcimonie, objectifs d'invariance) pour briser les symétries du modèle.
Avenir de la Recherche : Les auteurs appellent à des protocoles expérimentaux qui ne se contentent pas de valider l'efficacité comportementale, mais qui cherchent à valider la stabilité et l'unicité des représentations internes face à des perturbations géométriques.

En résumé, l'article démontre que la géométrie des LLM crée des "zones d'ombre" (espaces nuls) où des modifications internes massives restent invisibles pour l'observateur, rendant l'identification unique des vecteurs de pilotage impossible dans le cadre actuel.