Imaginez un modèle de langage Transformer (comme l'IA derrière ce texte) non pas comme un cerveau statique, mais comme une chaîne de montage industrielle.

Pendant longtemps, les chercheurs ont pensé que lorsque l'IA apprenait un concept — comme la « crédibilité » ou le « refus » — cela se produisait à une station spécifique de cette chaîne. Ils cherchaient la « meilleure couche » unique où l'idée était la plus claire, comme trouver le moment précis d'un film où le visage d'un personnage est le plus nettement visible.

Ce papier soutient que cette vision est trop simpliste. Au lieu d'un instantané unique, les concepts sont des processus. Ils se construisent progressivement, en traversant une zone spécifique de la chaîne de montage. L'auteur appelle cela la Zone d'Allocation du Concept (CAZ).

Voici le détail du fonctionnement, illustré par des analogies du quotidien :

1. La Chaîne de Montage vs L'Instantané

Considérez le « flux résiduel » de l'IA (les données circulant dans le modèle) comme un convoyeur.

L'Ancienne Méthode : Les chercheurs s'arrêtaient à un point précis du convoyeur, prenaient une photo et disaient : « Voici où réside le concept. »
La Nouvelle Méthode (CAZ) : Le papier affirme : « Non, le concept est en train d'être construit pendant qu'il avance. » Il commence comme une idée vague, se précise, peut-être qu'il est transféré vers une autre partie du convoyeur, et finit par se stabiliser. La CAZ est l'étendue complète du convoyeur où le modèle organise activement sa géométrie interne pour rendre ce concept distinct.

2. Trois Outils pour Observer la Construction

Pour suivre ce processus, l'auteur a inventé trois « capteurs » qui mesurent ce qui se passe à chaque station de la chaîne :

Séparation (La Distance) : Imaginez deux groupes de personnes (par exemple, « Crédible » vs « Non Crédible »). Au début de la chaîne, ils sont tous mélangés dans une foule. En avançant le long de la chaîne, le groupe « Crédible » commence à marcher vers la gauche et le groupe « Non Crédible » vers la droite. La séparation mesure à quelle distance ils sont l'un de l'autre.
Cohérence (L'Ordre) : Parfois, les groupes sont loin l'un de l'autre, mais ils sont aussi désordonnés et éparpillés. La cohérence mesure si le groupe avance en une ligne serrée et ordonnée ou en une foule chaotique. Un score élevé signifie que le concept est « cristallisé » en une forme claire.
Vitesse (La Vitesse du Changement) : Cela mesure la rapidité avec laquelle les groupes s'éloignent. Si la distance augmente rapidement, le concept est en train d'être construit en ce moment. Si la distance cesse de changer, le concept est terminé. Si les groupes commencent à se rapprocher, le concept est abandonné ou modifié.

3. Les Zones « Douces »

Le papier a découvert quelque chose de surprenant : les concepts n'ont pas juste un grand pic unique. Ils ont souvent plusieurs zones.

CAZ Majeure : Le grand pic évident où le concept est le plus fort.
CAZ Douce : Des zones plus petites et subtiles que les outils standards manquent. Le papier a montré que même ces zones « douces » sont réelles et actives. Si vous les désactivez, le comportement de l'IA change. C'est comme découvrir de petites engrenages cachés dans une horloge dont vous ignoriez qu'ils tournaient, mais si vous les arrêtez, l'horloge cesse de fonctionner.

4. Les Concepts Ont des « Sous-Représentations »

Parfois, un concept comme la « crédibilité » apparaît deux fois sur la chaîne de montage :

Zone Superficielle : Au début, l'IA peut reconnaître la crédibilité simplement à cause de mots spécifiques (comme « fiable » ou « confiance »).
Zone Profonde : Plus loin sur la chaîne, l'IA réévalue le concept en fonction de l'histoire entière et du contexte.
Le papier montre qu'il s'agit en réalité de formes géométriques différentes dans l'esprit de l'IA. Ce sont deux manières différentes de comprendre le même mot, survenant à différentes profondeurs.

5. Le « Transfert »

Puisque les concepts se déplacent et changent de forme, le papier suggère que si vous voulez intervenir (modifier le comportement de l'IA), vous ne devriez pas simplement choisir la « meilleure » couche. Vous devriez attendre que le concept ait terminé son parcours et se soit « stabilisé » dans une forme stable. C'est ce qu'on appelle la couche de transfert.

Analogie : Si vous essayez d'attraper une balle, vous ne tentez pas de la saisir pendant qu'elle est encore en cours de lancer (phase de montage) ; vous attendez qu'elle soit en l'air et stable (le transfert).

6. Le Motif « Universel »

Le papier a testé cela sur 34 modèles d'IA différents. Ils ont constaté que, bien que différents modèles aient un nombre de couches différent, ils organisent tous les concepts dans un ordre relatif similaire.

Analogie : Imaginez deux usines différentes. L'une a 10 stations, l'autre 100. Toutes deux construisent une voiture. Dans les deux usines, le moteur est construit dans les 20 % premiers de la chaîne, et la peinture est appliquée dans les 20 % derniers. Le pourcentage de la chaîne est le même, même si la longueur totale diffère. Le papier confirme que les modèles d'IA suivent ce même plan « stratifié par profondeur ».

Résumé des Tests Réalisés

L'auteur a formulé 7 prédictions spécifiques pour tester cette théorie. Voici le verdict en langage clair :

Prédiction 1 (Où couper) : Ils pensaient que couper au milieu de la zone était optimal. Faux. Cela dépend du modèle ; parfois, couper à la fin est mieux.
Prédiction 2 (Ordre) : Ils pensaient que l'ordre des concepts est le même dans tous les modèles. Vrai pour la plupart. L'ordre est cohérent, mais pas parfaitement rigide.
Prédiction 3 (Largeur) : Ils pensaient que les idées complexes occupent plus d'espace sur la chaîne. Peut-être. Les données suggèrent cela, mais davantage de tests sont nécessaires.
Prédiction 4 (La Fin) : Ils pensaient que les concepts deviennent désordonnés tout à la fin. Non Testable. La théorie d'« une fin désordonnée unique » était fausse car les concepts ont souvent plusieurs pics, donc il n'y a pas juste une « fin » à mesurer.
Prédiction 5 (Alignement) : Ils pensaient que faire correspondre la profondeur (pourcentage de la chaîne) entre les modèles était la clé. Vrai. C'est la découverte la plus forte : si vous comparez le « milieu » d'un modèle au « milieu » d'un autre, ils s'alignent parfaitement.
Prédiction 6 (Mots vs Contexte) : Ils pensaient que les zones précoces ne concernaient que les mots et les zones profondes le contexte. Faux. Les zones précoces ne sont pas juste des mots bruts ; elles sont déjà traitées.
Prédiction 7 (Architecture) : Ils pensaient que le nombre de « pics » dépendait du type de modèle, pas de sa taille. Inconnu. Le test n'était pas assez vaste pour en être certain.

La Conclusion

Ce papier change la vision de l'IA, passant d'une carte statique (où se trouve le concept ?) à un film dynamique (comment le concept se forme-t-il ?). Il introduit une manière de mesurer la « zone de construction » des idées, révélant que les modèles d'IA construisent des pensées complexes par étapes, utilisant souvent plusieurs étapes cachées que les méthodes précédentes avaient manquées.

Résumé technique : Le concept de Zone d'Allocation du Concept (CAZ)

Énoncé du problème

Les méthodes actuelles d'interprétabilité mécaniste reposent principalement sur une heuristique de « meilleure couche », identifiant une couche unique optimale dans le flux résiduel d'un Transformer où la représentation d'un concept atteint une séparation de classe maximale (par exemple, via un sondage linéaire ou une différence de moyennes). Bien que cette approche soit efficace sur le plan computationnel, elle traite la formation du concept comme un instantané statique plutôt que comme un processus dynamique. Elle échoue à capturer la nature itérative et étendue en profondeur de la manière dont les concepts sont assemblés, organisés et potentiellement réalloués à travers les couches du modèle. Par conséquent, les méthodes monocouches peuvent manquer des représentations transitionnelles, des régions d'allocation subtiles et les dynamiques géométriques de la construction du concept.

Méthodologie

L'article introduit le cadre Zone d'Allocation du Concept (CAZ), qui redéfinit la représentation d'un concept comme une région contiguë de profondeur du modèle plutôt que comme un point unique. Le cadre repose sur trois métriques par couche calculées à partir des activations du flux résiduel :

Séparation ( $S(l)$ ) : Une distance de centroïde normalisée par Fisher entre des classes contrastées à la couche $l$ . Cela mesure la facilité avec laquelle le modèle distingue deux classes (par exemple, un texte crédible vs non crédible) à une profondeur spécifique.
Cohérence du concept ( $C(l)$ ) : Le ratio de variance expliquée par la première composante principale de la matrice d'activation regroupée. Cela quantifie si le concept est encodé comme une direction géométrique unique et nette, ou s'il est étalé sur plusieurs dimensions.
Vitesse du concept ( $v(l)$ ) : Le taux de variation lissé de la métrique de séparation à travers les couches. Une vitesse positive indique la construction active du concept, tandis qu'une vitesse négative indique une dégradation ou une réallocation.

Détection et extraction

Le cadre emploie une méthode de détection notée pour identifier les limites de la CAZ sans balayage manuel des couches. Contrairement à la détection de pics à seuil fixe, cette méthode utilise un score composite intégrant la proéminence, la cohérence et la largeur de la région. Cela permet d'identifier :

Les CAZ majeures/fortes : Des régions d'allocation à forte proéminence et concentrées.
Les CAZ douces : Des régions d'allocation subtiles (score < 0,05) souvent invisibles pour la détection de pics standard, mais dont l'activité causale est empiriquement démontrée.

Le cadre distingue entre les CAZ d'encodage (pilotées par des caractéristiques au niveau des tokens à la frontière d'entrée) et les CAZ actives (pilotées par les calculs d'attention et de MLP au sein des couches du transformer).

Pour l'extraction de concepts, l'article valide les Cartes d'Évolution Géométrique (GEM), qui suivent la trajectoire directionnelle d'un concept. Il constate que les directions des concepts subissent souvent une rotation substantielle au sein d'une CAZ et ne se stabilisent qu'à une « couche de transfert » post-CAZ. Le sondage à cette couche de transfert est souvent plus précis que le sondage au pic de séparation, en particulier dans les architectures à Attention Multi-Têtes (MHA).

Contributions clés

Le cadre CAZ : Une définition formelle de l'allocation d'un concept comme un intervalle localisé en profondeur où le modèle organise la géométrie pour servir un concept, distinct du concept lui-même.
Trois métriques par couche : La formalisation de la Séparation, de la Cohérence et de la Vitesse pour caractériser la formation du concept comme un processus.
Détection notée : Une méthode fondée sur des principes pour identifier un spectre de régions d'allocation, révélant des « CAZ douces » que les méthodes standard manquent.
Découverte de sous-représentations : Des preuves empiriques montrant que des étiquettes de concepts humains uniques (par exemple, « crédibilité ») correspondent à plusieurs sous-représentations géométriquement distinctes à différentes profondeurs de traitement (superficielle vs profonde), séparées par des transitions de phase abruptes.
Alignement stratifié en profondeur : Une vision affinée de l'Hypothèse de la Représentation Platonicienne, démontrant que l'alignement inter-architectures est plus fort lorsque les concepts sont appariés par profondeur de traitement (indice de couche proportionnel) plutôt que par indice de couche absolu ou famille d'architecture.

Résultats empiriques

Le cadre a été validé sur 34 modèles issus de 8 familles d'architectures (incluant Pythia, GPT-2, OPT, Qwen 2.5, Gemma 2, Llama 3.2, Mistral et Phi) et 7 concepts.

Multimodalité : La courbe de séparation $S(l)$ est fréquemment multimodale. Un concept unique participe généralement à plusieurs CAZ (moyenne de 3,4 par concept et par modèle).
Activité causale des CAZ douces : Des études d'ablation sur 16 des 34 modèles (étendues à 26 modèles de base dans un travail complémentaire) montrent que la suppression des « CAZ douces » (score < 0,05) réduit la séparation géométrique dans 93 à 100 % des cas, confirmant leur rôle causal malgré leur invisibilité pour la détection standard.
Verdicts de prédiction :
- Soutenu (P5) : L'alignement inter-architectures est apparié en profondeur. Les sous-représentations à des profondeurs de traitement appariées s'alignent plus fortement que des profondeurs non appariées.
- Partiellement soutenu (P2) : Les limites de la CAZ montrent un ordre relatif cohérent à travers les architectures (de la surface vers la profondeur), bien qu'il s'agisse d'une tendance statistique plutôt que d'une invariance stricte.
- Non soutenu (P1, P6) : La profondeur d'ablation optimale n'est pas universellement au milieu de la CAZ (elle dépend de la redondance de l'encodage), et les pics superficiels ne sont pas directement corrélés aux encodages bruts des tokens.
- Non testable tel quel (P4) : La prémisse d'une unique région de dégradation post-CAZ a été invalidée par la découverte d'une allocation multimodale.
- Exploratoire/Indéterminé (P3, P7) : Les corrélations entre la largeur de la CAZ et l'abstraction, ainsi que la prévalence de la multimodalité et l'architecture, nécessitent davantage de données.

Importance et revendications

L'article revendique que le cadre CAZ déplace le paradigme de l'interprétabilité de l'anatomie (localiser où un concept est le plus visible) vers le flux dynamique (suivre comment un concept se forme).

Raffinement de l'interprétabilité : Il fournit une base géométrique pour sélectionner les profondeurs d'intervention, suggérant que l'ablation à différents points de la chaîne CAZ produit des effets qualitativement différents.
Lien avec la « matière noire » : Le cadre émet l'hypothèse que le résidu structuré non expliqué par les Autoencodeurs Creux (SAE) pourrait correspondre à une construction de concept en cours au sein des CAZ — des représentations transitionnelles qui résistent à la décomposition linéaire à n'importe quelle couche unique.
Insights sur l'entraînement par alignement : Les profils CAZ offrent une métrique pour quantifier comment l'ajustement par instruction déforme l'allocation des concepts, révélant que l'ajustement ne déplace pas uniformément les concepts vers des profondeurs plus superficielles, mais altère l'allocation en fonction de la géométrie existante du modèle de base.
Convergence stratifiée en profondeur : Le résultat empirique le plus fort est la confirmation que l'alignement inter-architectures est un phénomène stratifié en profondeur, soutenant une version affinée de l'Hypothèse de la Représentation Platonicienne où la convergence se produit à des étapes de traitement proportionnelles plutôt que globalement.

Les auteurs soulignent que la CAZ n'est pas le concept lui-même, mais la région de profondeur où se produit l'événement computationnel de l'organisation géométrique. Plusieurs concepts peuvent partager une CAZ, et un concept unique participe généralement à plusieurs CAZ à travers la profondeur. L'implémentation de référence est fournie dans la bibliothèque open-source rosetta_tools.

The Concept Allocation Zone: Tracking How Concepts Form Across Transformer Depth