Causality $\neq$ Invariance: Function and Concept Vectors in LLMs

Each language version is independently generated for its own context, not a direct translation.

Le Titre : La Causalité n'est pas l'Invariance

(Ou en français : "Faire la bonne chose" n'est pas la même chose que "Comprendre l'idée de manière pure".)

Imaginez que vous avez un assistant très intelligent (le modèle de langage, ou LLM) qui est excellent pour résoudre des énigmes. Les chercheurs se sont demandé : Est-ce que cet assistant possède une "compréhension abstraite" des concepts, indépendante de la façon dont on lui pose la question ?

Par exemple, si vous lui demandez "Quel est le contraire de 'chaud' ?", la réponse devrait être "froid", peu importe si vous posez la question en français, en anglais, ou sous forme de QCM (choix multiples).

L'Analogie du Chef et du Traducteur

Pour expliquer ce que les chercheurs ont découvert, imaginons l'intérieur du cerveau de l'IA comme une grande cuisine avec deux types d'ouvriers :

1. Les "Vecteurs de Fonction" (FV) : Le Chef de Cuisine Pragmatique

C'est ce que l'on connaissait déjà. Ce sont des ouvriers très efficaces qui savent exactement comment exécuter une tâche.

Leur force : Ils sont super rapides et précis quand le contexte est familier.
Leur défaut : Ils sont un peu "paresseux" sur le fond. Ils associent l'idée à la forme.
- L'analogie : Si vous lui donnez une recette en anglais avec des mots, il prépare le plat en anglais. Si vous lui donnez la même recette en français ou avec des cases à cocher (QCM), il change complètement de méthode. Il ne voit pas l'idée de "recette", il voit "recette en anglais" ou "recette en QCM".
- Résultat : Si vous essayez d'utiliser ses instructions pour une tâche dans un format différent, ça ne marche pas bien. C'est comme essayer de conduire une voiture avec le volant de gauche alors que vous êtes dans un pays où on conduit à droite.

2. Les "Vecteurs de Concept" (CV) : Le Traducteur Abstrait

C'est la nouvelle découverte de cette étude. Les chercheurs ont trouvé un autre groupe d'ouvriers, plus discrets, qui comprennent l'essence de la chose.

Leur force : Ils sont "invariants". Ils voient le concept "Antonyme" (le contraire) comme une idée pure, peu importe la langue ou le format.
Leur défaut : Ils sont un peu moins puissants pour forcer l'IA à agir immédiatement. Ils sont plus comme une boussole qu'un moteur.
- L'analogie : Peu importe si vous lui parlez en français, en espagnol ou si vous lui montrez un dessin, il comprend toujours : "Ah, on cherche le contraire !". Il ne se soucie pas de la forme de la question.

La Grande Révélation : Deux Circuits Différents

Avant cette étude, on pensait que l'IA utilisait le même "circuit" pour tout : comprendre l'idée et agir.
La découverte choc : Non ! L'IA utilise deux circuits séparés qui travaillent dans les mêmes étages du cerveau, mais qui ne se parlent presque pas.

Le circuit du Chef (FV) : Il fait le travail. Il est très fort quand le format correspond (ex: tout en anglais). Mais il est "aveugle" aux changements de format.
Le circuit du Traducteur (CV) : Il détecte l'idée pure. Il est très stable, mais il ne suffit pas toujours à faire bouger l'IA tout seul.

L'Expérience du "Brouillard" (Steering)

Les chercheurs ont fait une expérience amusante : ils ont essayé de "pousser" l'IA (comme un volant) pour qu'elle réponde à une question, même quand la question était ambiguë.

Avec le Chef (FV) : Ça marche super bien si le "poussage" vient du même format que la question. Mais si vous changez de langue ou de format, le Chef se trompe et commence à répondre dans la mauvaise langue ou à ajouter des symboles de QCM inutiles.
Avec le Traducteur (CV) : Ça marche un peu moins fort, mais c'est beaucoup plus fiable. Peu importe si vous changez de langue ou de format, le Traducteur garde l'IA sur la bonne voie conceptuelle. Il ne se laisse pas distraire par la forme.

En Résumé : Pourquoi c'est important ?

Imaginez que vous voulez enseigner à un robot à faire des analogies (comme "chaud est à froid ce que grand est à petit").

Si vous utilisez les Vecteurs de Fonction, le robot sera excellent tant que vous lui parlez toujours de la même façon. Mais dès que vous changez de contexte, il perd ses moyens.
Si vous utilisez les Vecteurs de Concept, le robot comprendra vraiment la logique de l'analogie, même si vous changez de langue ou de style de question.

La leçon : Les grands modèles de langage (LLM) ont bien une forme de "compréhension abstraite" (les CV), mais ce n'est pas ce qui les fait "agir" le plus efficacement dans la plupart des cas (les FV). Ils ont deux cerveaux : l'un qui comprend la philosophie, l'autre qui exécute la tâche selon les règles du jour.

C'est une découverte cruciale pour rendre les IA plus intelligentes et plus robustes, capables de comprendre le fond des choses, pas juste la forme des questions.

Each language version is independently generated for its own context, not a direct translation.

Titre : Causalité ≠ Invariance : Vecteurs de Fonction et Vecteurs de Concept dans les LLM

1. Problématique

La question centrale de cette recherche est de savoir si les grands modèles de langage (LLM) représentent les concepts de manière abstraite, c'est-à-dire de façon stable indépendamment du format d'entrée (surface form).

Contexte : Les travaux récents sur les Vecteurs de Fonction (Function Vectors - FVs) suggèrent que des représentations compactes, dérivées de la somme des sorties de têtes d'attention spécifiques, peuvent piloter causalement l'apprentissage en contexte (ICL). Ces FVs sont souvent considérés comme encodant le concept sous-jacent de manière invariante.
Hypothèse remise en cause : Les auteurs postulent que les FVs ne sont pas entièrement invariants. Ils pourraient mélanger la représentation du concept avec le format d'entrée (par exemple, la distinction entre une question ouverte et un choix multiple, ou la langue utilisée).
Objectif : Distinguer les mécanismes qui causent la performance du modèle (causalité) de ceux qui encodent une structure conceptuelle abstraite et invariante (invariance).

2. Méthodologie

Les auteurs ont mené une étude comparative sur quatre modèles (Llama 3.1 8B/70B et Qwen 2.5 7B/72B) et sept concepts relationnels (antonymes, catégories, causalité, synonymes, traduction, temps verbal, singulier/pluriel) à travers trois formats d'entrée :

ICL ouvert en anglais (OE-EN).
ICL ouvert en français/espagnol (OE-FR/ES).
ICL à choix multiples (MC).

Deux approches d'analyse mécaniste ont été utilisées pour identifier les têtes d'attention pertinentes :

Activation Patching (AP) pour les Vecteurs de Fonction (FVs) :
- Cette méthode mesure l'effet causal indirect (CIE) en remplaçant les activations d'une tête d'attention par celles d'une exécution "propre" (clean run) lors d'une exécution "corrompue".
- Les têtes sélectionnées sont celles qui maximisent la probabilité de la réponse correcte. La somme de leurs activations forme le Vecteur de Fonction (FV).
- Hypothèse : Ces têtes sont les moteurs causaux de la tâche.
Analyse de Similarité Représentationnelle (RSA) pour les Vecteurs de Concept (CVs) :
- Cette méthode identifie les têtes dont les représentations internes s'organisent selon le concept plutôt que selon le format.
- On construit une matrice de similarité (RSM) des sorties des têtes et on la compare à une matrice de conception binaire indiquant si deux prompts partagent le même concept (indépendamment du format).
- Les têtes avec un score de corrélation de Spearman ( $\rho$ ) élevé sont sélectionnées. Leur somme forme le Vecteur de Concept (CV).
- Hypothèse : Ces têtes encodent la structure abstraite du concept.
Expériences de Pilotage (Steering) :
- Les auteurs injectent les FVs et CVs dans le flux résiduel du modèle pour voir si cela modifie la prédiction.
- Ils utilisent une tâche AmbiguousICL où deux concepts sont mélangés dans un même prompt pour tester la capacité du vecteur à orienter le modèle vers le concept cible, que ce soit en distribution (ID) ou hors distribution (OOD).

3. Contributions Clés

Non-invariance des FVs : Les auteurs démontrent que les FVs extraits pour un même concept mais depuis des formats différents (ex: ouvert vs choix multiple) sont presque orthogonaux. Ils mélangent le concept avec le format d'entrée.
Découverte des Vecteurs de Concept (CVs) : L'utilisation de la RSA révèle un ensemble de têtes d'attention qui encodent les concepts relationnels de manière abstraite et invariante au format.
Dissociation Mécaniste : Les têtes sélectionnées par AP (FVs) et par RSA (CVs) sont largement disjointes (peu de chevauchement), bien qu'elles apparaissent dans des couches similaires du modèle. Cela suggère deux mécanismes distincts : l'un pour la causalité (exécution), l'autre pour l'abstraction (représentation).
Compromis Pilotage : Les FVs sont plus puissants pour le pilotage en distribution (ID), tandis que les CVs offrent une meilleure généralisation hors distribution (OOD) avec moins d'artefacts de format.

4. Résultats Principaux

Similarité et Clustering :
- Les matrices de similarité des FVs montrent un regroupement par format (les prompts en choix multiple sont similaires entre eux, peu importe le concept).
- Les matrices de similarité des CVs montrent un regroupement par concept à travers tous les formats (les antonymes en anglais, français et choix multiple sont similaires).
- Le chevauchement des têtes entre les deux méthodes est négligeable (souvent 0 pour $K \le 20$ ).
Performance de Pilotage (Steering) :
- En Distribution (ID) : Les FVs produisent des gains de probabilité ( $\Delta P$ ) plus importants que les CVs lorsque le format d'extraction et d'application correspondent.
- Hors Distribution (OOD) : Les FVs dégradent souvent leurs performances ou introduisent des biais liés au format (ex: si le vecteur est extrait d'un prompt en français, il pousse le modèle à générer des antonymes en français ; s'il est extrait d'un choix multiple, il augmente la probabilité des parenthèses ou des lettres de réponse).
- Les CVs, bien que produisant des gains absolus plus faibles, maintiennent une cohérence remarquable. Ils augmentent la probabilité du concept cible (ex: l'antonyme anglais) indépendamment du format d'extraction, sans introduire d'artefacts linguistiques ou de format.
Mesure de Cohérence (KL Divergence) :
- La divergence de Kullback-Leibler entre les distributions de sortie après pilotage avec des vecteurs ID et OOD est significativement plus faible pour les CVs que pour les FVs, confirmant leur robustesse.

5. Signification et Implications

Révision de l'hypothèse des Vecteurs de Fonction : L'article remet en cause l'idée qu'un vecteur de fonction unique et invariant suffit à expliquer l'ICL. Il propose plutôt que le "vecteur de fonction" est en réalité conditionnel au format : $a(f, \phi)$ , où $\phi$ est le format.
Séparation Causalité/Invariance : Les résultats soutiennent l'idée que la capacité d'un LLM à généraliser (invariance) et sa capacité à exécuter une tâche (causalité) sont médiatisées par des circuits neuronaux distincts, bien que situés dans les mêmes couches.
Représentation Abstraite : Les LLMs possèdent bien des représentations de concepts abstraits (les CVs), mais celles-ci ne sont pas les principaux moteurs de la performance immédiate en ICL. Les FVs semblent opérer à un niveau d'abstraction inférieur ("antonyme en format choix multiple") plutôt qu'à un niveau purement conceptuel ("antonyme").
Applications Pratiques :
- Pour un contrôle maximal en distribution, les FVs sont préférables.
- Pour un contrôle robuste hors distribution ou pour sonder la connaissance abstraite, les CVs sont plus fiables.
- Cela suggère une architecture où les CVs agiraient comme des mécanismes de détection/détection de tâche, tandis que les FVs agiraient comme des mécanismes d'exécution spécifiques au format.

En conclusion, l'article établit que la causalité n'est pas égale à l'invariance dans les LLMs : les mécanismes qui font fonctionner le modèle sont distincts de ceux qui représentent les concepts de manière abstraite.

Causality ≠\neq= Invariance: Function and Concept Vectors in LLMs