Causality \neq Invariance: Function and Concept Vectors in LLMs

Cette étude démontre que, bien que les grands modèles de langage contiennent des représentations de concepts abstraits stables (Concept Vectors) qui généralisent mieux à travers différents formats et langues, les vecteurs de fonction (Function Vectors) qui pilotent l'apprentissage en contexte ne sont pas invariants et dépendent fortement du format d'entrée.

Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson

Publié 2026-02-27
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

Le Titre : La Causalité n'est pas l'Invariance

(Ou en français : "Faire la bonne chose" n'est pas la même chose que "Comprendre l'idée de manière pure".)

Imaginez que vous avez un assistant très intelligent (le modèle de langage, ou LLM) qui est excellent pour résoudre des énigmes. Les chercheurs se sont demandé : Est-ce que cet assistant possède une "compréhension abstraite" des concepts, indépendante de la façon dont on lui pose la question ?

Par exemple, si vous lui demandez "Quel est le contraire de 'chaud' ?", la réponse devrait être "froid", peu importe si vous posez la question en français, en anglais, ou sous forme de QCM (choix multiples).

L'Analogie du Chef et du Traducteur

Pour expliquer ce que les chercheurs ont découvert, imaginons l'intérieur du cerveau de l'IA comme une grande cuisine avec deux types d'ouvriers :

1. Les "Vecteurs de Fonction" (FV) : Le Chef de Cuisine Pragmatique

C'est ce que l'on connaissait déjà. Ce sont des ouvriers très efficaces qui savent exactement comment exécuter une tâche.

  • Leur force : Ils sont super rapides et précis quand le contexte est familier.
  • Leur défaut : Ils sont un peu "paresseux" sur le fond. Ils associent l'idée à la forme.
    • L'analogie : Si vous lui donnez une recette en anglais avec des mots, il prépare le plat en anglais. Si vous lui donnez la même recette en français ou avec des cases à cocher (QCM), il change complètement de méthode. Il ne voit pas l'idée de "recette", il voit "recette en anglais" ou "recette en QCM".
    • Résultat : Si vous essayez d'utiliser ses instructions pour une tâche dans un format différent, ça ne marche pas bien. C'est comme essayer de conduire une voiture avec le volant de gauche alors que vous êtes dans un pays où on conduit à droite.

2. Les "Vecteurs de Concept" (CV) : Le Traducteur Abstrait

C'est la nouvelle découverte de cette étude. Les chercheurs ont trouvé un autre groupe d'ouvriers, plus discrets, qui comprennent l'essence de la chose.

  • Leur force : Ils sont "invariants". Ils voient le concept "Antonyme" (le contraire) comme une idée pure, peu importe la langue ou le format.
  • Leur défaut : Ils sont un peu moins puissants pour forcer l'IA à agir immédiatement. Ils sont plus comme une boussole qu'un moteur.
    • L'analogie : Peu importe si vous lui parlez en français, en espagnol ou si vous lui montrez un dessin, il comprend toujours : "Ah, on cherche le contraire !". Il ne se soucie pas de la forme de la question.

La Grande Révélation : Deux Circuits Différents

Avant cette étude, on pensait que l'IA utilisait le même "circuit" pour tout : comprendre l'idée et agir.
La découverte choc : Non ! L'IA utilise deux circuits séparés qui travaillent dans les mêmes étages du cerveau, mais qui ne se parlent presque pas.

  1. Le circuit du Chef (FV) : Il fait le travail. Il est très fort quand le format correspond (ex: tout en anglais). Mais il est "aveugle" aux changements de format.
  2. Le circuit du Traducteur (CV) : Il détecte l'idée pure. Il est très stable, mais il ne suffit pas toujours à faire bouger l'IA tout seul.

L'Expérience du "Brouillard" (Steering)

Les chercheurs ont fait une expérience amusante : ils ont essayé de "pousser" l'IA (comme un volant) pour qu'elle réponde à une question, même quand la question était ambiguë.

  • Avec le Chef (FV) : Ça marche super bien si le "poussage" vient du même format que la question. Mais si vous changez de langue ou de format, le Chef se trompe et commence à répondre dans la mauvaise langue ou à ajouter des symboles de QCM inutiles.
  • Avec le Traducteur (CV) : Ça marche un peu moins fort, mais c'est beaucoup plus fiable. Peu importe si vous changez de langue ou de format, le Traducteur garde l'IA sur la bonne voie conceptuelle. Il ne se laisse pas distraire par la forme.

En Résumé : Pourquoi c'est important ?

Imaginez que vous voulez enseigner à un robot à faire des analogies (comme "chaud est à froid ce que grand est à petit").

  • Si vous utilisez les Vecteurs de Fonction, le robot sera excellent tant que vous lui parlez toujours de la même façon. Mais dès que vous changez de contexte, il perd ses moyens.
  • Si vous utilisez les Vecteurs de Concept, le robot comprendra vraiment la logique de l'analogie, même si vous changez de langue ou de style de question.

La leçon : Les grands modèles de langage (LLM) ont bien une forme de "compréhension abstraite" (les CV), mais ce n'est pas ce qui les fait "agir" le plus efficacement dans la plupart des cas (les FV). Ils ont deux cerveaux : l'un qui comprend la philosophie, l'autre qui exécute la tâche selon les règles du jour.

C'est une découverte cruciale pour rendre les IA plus intelligentes et plus robustes, capables de comprendre le fond des choses, pas juste la forme des questions.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →