On the Non-Identifiability of Steering Vectors in Large Language Models

Cet article démontre que les vecteurs de pilotage dans les grands modèles de langage sont fondamentalement non identifiables, car des perturbations orthogonales peuvent produire des effets comportementaux équivalents, révélant ainsi des limites inhérentes à l'interprétabilité de ces interventions.

Sohan Venkatesh, Ashish Mahendran Kurapath

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Secret des "Bâtons de Magie" des IA

Imaginez que les grands modèles de langage (comme ceux qui écrivent des textes ou répondent à des questions) sont comme de gigantesques orchestres symphoniques. Chaque musicien joue une note précise pour créer la mélodie finale.

Récemment, les chercheurs ont découvert un moyen de "diriger" ces orchestres en ajoutant un petit bâton de magie (appelé vecteur de pilotage ou steering vector) aux notes jouées par les musiciens.

  • Si vous ajoutez ce bâton, l'orchestre joue soudainement en mode "très poli".
  • Si vous en changez un autre, l'orchestre devient "drôle" ou "sérieux".

Jusqu'à présent, tout le monde pensait que ce bâton de magie était unique. On croyait qu'il existait une seule direction précise dans le cerveau de l'IA qui correspondait à la "politesse", comme une seule clé qui ouvre une seule porte.

🚫 La Révélation : Il n'y a pas une seule clé, mais des milliers !

Ce papier de recherche (Venkatesh et Mahendran) dit : "Attendez une minute. Ce n'est pas vrai."

Ils prouvent mathématiquement et expérimentalement que ce bâton de magie n'est pas unique. En fait, il existe une infinité de directions différentes qui produisent exactement le même résultat.

L'analogie du Brouillard et de la Montagne

Imaginez que vous êtes en haut d'une montagne dans un épais brouillard (c'est le modèle de l'IA). Vous voulez descendre vers la vallée (le résultat "poli").

  • L'ancienne croyance : Il n'y a qu'un seul sentier précis pour arriver en bas. Si vous trouvez ce sentier, vous êtes sûr d'avoir trouvé la "véritable" direction de la politesse.
  • La découverte de ce papier : En réalité, il y a des milliers de sentiers différents qui descendent tous vers la même vallée. Si vous choisissez un sentier un peu à gauche, ou un peu à droite, ou même un chemin qui fait des zigzags, vous arrivez exactement au même endroit.

Le papier montre que les chercheurs, en cherchant le "sentier de la politesse", ne trouvent qu'un chemin parmi des milliers d'autres qui fonctionnent aussi bien. Ils ne peuvent pas savoir lequel est le "vrai" chemin de la politesse, car tous mènent au même résultat.

🧪 L'Expérience : Le Test du "Bâton Tordu"

Pour le prouver, les chercheurs ont fait une expérience simple mais géniale sur deux modèles d'IA (Qwen et Llama) :

  1. Ils ont trouvé un "bâton de magie" standard pour rendre l'IA polie.
  2. Ensuite, ils ont pris ce bâton et y ont ajouté un petit morceau perpendiculaire (comme si on courbait légèrement le bâton dans une direction qui ne devrait pas servir).
  3. Le résultat ? L'IA est devenue tout aussi polie avec le bâton tordu qu'avec le bâton droit !

C'est comme si vous essayiez de régler la température d'une douche. Vous pensez que tourner le robinet vers la gauche est la seule façon d'avoir de l'eau chaude. Mais ils ont découvert que vous pouvez aussi tourner le robinet vers la gauche, tout en le tordant légèrement vers le haut, et l'eau sera exactement aussi chaude.

💡 Pourquoi est-ce important ?

Cela change la façon dont nous comprenons l'intelligence artificielle :

  1. On ne peut pas lire les pensées de l'IA : Si vous trouvez un vecteur qui rend l'IA "honnête", vous ne pouvez pas dire avec certitude : "Ah, c'est ici que l'honnêteté est stockée !" Non, c'est juste un des nombreux chemins possibles. L'IA pourrait très bien utiliser un chemin totalement différent pour faire la même chose.
  2. C'est fragile : Si vous changez un peu le modèle de l'IA (une mise à jour), le "chemin" que vous aviez trouvé pourrait disparaître, même si l'IA reste capable d'être polie. C'est comme si vous aviez trouvé un sentier dans la forêt, mais que la forêt a changé, et votre sentier n'existe plus, même si la vallée est toujours là.
  3. Il faut plus que des tests : On ne peut pas se fier uniquement à ce que l'IA dit ou fait pour comprendre comment elle pense. Il faut regarder la structure interne de l'IA pour trouver des règles plus solides.

🏁 En résumé

Ce papier nous dit que contrôler le comportement d'une IA est facile, mais comprendre pourquoi ça marche est beaucoup plus difficile.

Nous avons l'impression de tenir le "levier de commande" unique, mais en réalité, nous tenons juste un des nombreux leviers qui fonctionnent par hasard. C'est une leçon d'humilité pour les chercheurs : nous ne pouvons pas encore prétendre avoir cartographié la "conscience" ou les "concepts" de l'IA de manière unique, car l'IA a trop de façons différentes d'arriver au même résultat.

La morale de l'histoire : Ne confondez pas "ça marche" avec "c'est la seule façon de faire". L'IA est plus flexible et plus mystérieuse que nous ne le pensions.