Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Mystère de la Boîte Noire

Imaginez que les modèles d'intelligence artificielle qui voient et parlent (comme ceux qui décrivent des photos ou répondent à des questions sur des images) sont des boîtes noires magiques. Vous leur donnez une photo et une question, et ils vous donnent une réponse. Mais à l'intérieur ? C'est le chaos. Personne ne sait exactement comment ils font le lien entre ce qu'ils "voient" et ce qu'ils "pensent".

Les chercheurs de cette étude (de l'Université de l'Illinois et d'un chercheur indépendant) ont décidé de dévisser cette boîte noire pour voir les rouages. Ils ont créé le premier "guide de circuit" pour ces modèles.

🔧 L'Outil Magique : Les "Transcodeurs"

Pour comprendre comment le modèle fonctionne, ils ont utilisé un outil appelé transcodeur.

L'analogie : Imaginez que le cerveau du modèle parle une langue compliquée et mélangée (comme un mélange de français, de code binaire et de gribouillis). C'est ce qu'on appelle des représentations "poly-sémantiques" (un seul neurone pense à plein de choses à la fois).
La solution : Les transcodeurs agissent comme des traducteurs super-puissants. Ils prennent ce mélange confus et le transforment en une liste de mots-clés clairs et distincts (comme un dictionnaire où chaque mot a une seule définition précise).
Le résultat : Au lieu de voir un brouillard, les chercheurs voient maintenant des "briques" de pensée bien définies : "c'est un chat", "c'est un chiffre 3", "c'est la couleur rouge".

🗺️ La Carte du Trésor : Le "Graphique d'Attribution"

Une fois qu'ils ont ces briques claires, ils ont construit une carte routière (un graphique d'attribution).

L'analogie : Imaginez que vous suivez un courant d'eau dans une ville complexe. Vous voulez savoir : "D'où vient l'eau qui arrive au robinet de la cuisine ?"
L'application : Ils tracent le chemin de l'information. Ils voient comment l'image (la photo de Mars) entre dans le modèle, comment elle se transforme en concepts visuels, puis comment ces concepts se mélangent avec le texte pour donner la réponse finale.
La découverte : Ils ont vu que le modèle ne fait pas tout d'un coup. Il y a des étapes : d'abord il regarde les pixels (comme un photographe), puis il commence à comprendre les formes, et enfin, il relie tout cela au sens des mots.

🧠 Ce qu'ils ont découvert (Les Grandes Révélations)

En regardant ces circuits, ils ont trouvé des choses fascinantes :

La Cuisine en Étages : Au début du modèle (les couches basses), il ne voit que des détails (des textures, des chiffres). Plus on monte dans les étages du modèle, plus les concepts se mélangent. C'est là que le modèle dit : "Ah, ce chiffre rouge sur ce fond bleu, c'est un feu de signalisation !"
Le Calcul Visuel : Pour des maths simples (comme 1 + 2 sur une image), le modèle ne fait pas le calcul comme un humain avec des mots. Il utilise des circuits visuels. Il "voit" le résultat (le chiffre 3) directement dans l'image, comme si l'image elle-même contenait la réponse.
Les Hallucinations (Le Doigt en Trop) : Pourquoi un modèle dessine-t-il parfois 6 doigts à une main ? Ils ont découvert que ce n'est pas un bug simple. C'est une bagarre interne. Le "moteur de vision" crie "C'est une main !", et le "moteur de langage" crie "Les mains ont 5 doigts !". Parfois, le signal "main" est si fort qu'il étouffe le comptage précis, et le modèle se trompe.
Les Associations Mystérieuses : Si vous montrez une image de Mars, le modèle peut activer des circuits liés à la "navette spatiale", même si la navette n'est pas sur la photo. C'est comme si le modèle avait une mémoire visuelle associée, indépendante du texte.

🎮 Le Contrôle à Distance : "Steering" et "Patch"

Le plus cool, c'est qu'ils ne font pas que regarder, ils peuvent jouer avec.

Le "Steering" (Volant) : Ils peuvent forcer un circuit à s'activer ou se désactiver.
- Exemple : Ils ont pris un circuit qui pensait "Mars" et ils l'ont remplacé par un circuit "Terre". Résultat ? Le modèle a soudainement commencé à parler de la Terre au lieu de Mars, même si la photo était toujours la même !
Le "Patching" (Greffe) : Ils peuvent prendre un morceau de circuit d'un modèle et le "greffer" sur un autre pour voir si ça marche. C'est comme changer une pièce d'une voiture pour voir si elle roule mieux.

🏁 Pourquoi c'est important ?

Avant, on utilisait l'IA comme un oracle : on posait une question, on espérait une bonne réponse. Maintenant, grâce à ce papier, on peut comprendre la mécanique.

C'est comme passer d'un pilote qui conduit les yeux fermés à un pilote qui voit le moteur, les freins et le volant. Cela permet de :

Corriger les erreurs (pourquoi l'IA a-t-elle halluciné ?).
Rendre l'IA plus fiable (surtout pour la médecine ou la conduite autonome).
Créer des IA plus transparentes et honnêtes.

En résumé, cette équipe a réussi à dessiner le plan électrique d'un cerveau artificiel qui voit et parle, prouvant qu'on peut le comprendre, le contrôler et le réparer.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles vision-langage (VLM) actuels, tels que CLIP, Flamingo ou GPT-4o, ont démontré des capacités exceptionnelles dans la compréhension et le raisonnement multimodaux. Cependant, ils restent des "boîtes noires" opaques. Bien que des méthodes d'interprétabilité existent pour les modèles de langage (LLM), leur application aux VLM est limitée car ces derniers doivent intégrer deux modalités aux statistiques et sémantiques différentes (images et texte).
Le défi principal est de comprendre comment ces modèles lient les caractéristiques visuelles aux tokens textuels, implémentent le raisonnement intermodal et coordonnent l'attention. L'absence de transparence empêche le diagnostic des erreurs, la mitigation des biais et la garantie de l'alignement avec les valeurs humaines, en particulier dans des domaines à haut risque comme l'imagerie médicale ou la conduite autonome.

2. Méthodologie

Les auteurs proposent le premier cadre de travail pour le traçage de circuits (circuit tracing) dans les VLM, permettant une analyse systématique des mécanismes computationnels internes. Leur approche repose sur trois piliers principaux :

Transcodeurs (Transcoders) :
- Pour décomposer les représentations poly-sémantiques (où un neurone répond à plusieurs concepts) en caractéristiques interprétables et mono-sémantiques, les auteurs remplacent chaque couche MLP (Multi-Layer Perceptron) du modèle par un transcodeur.
- Un transcodeur est un auto-encodeur creux (Sparse Autoencoder - SAE) entraîné pour imiter le comportement entrée-sortie de la couche MLP originale.
- Contrairement aux SAE classiques, les transcodeurs préservent l'équivalence computationnelle tout en exposant la structure au niveau des caractéristiques. Ils utilisent une contrainte de parcimonie via TopK (garder les $k$ activations les plus fortes) plutôt qu'une pénalité $L_1$ , assurant une stabilité accrue.
- Les résidus de reconstruction (l'erreur entre le MLP original et le transcodeur) sont suivis séparément pour ne pas altérer le passage avant du modèle.
Graphes d'Attribution :
- Une fois les transcodeurs entraînés, le modèle devient localement linéaire autour d'une entrée donnée (les non-linéarités étant figées).
- Les auteurs calculent un graphe d'attribution qui décompose linéairement la contribution de chaque caractéristique (feature) aux activations des couches supérieures et aux logits de sortie.
- Ce graphe relie les embeddings de tokens, les caractéristiques actives des transcodeurs et les sorties, permettant d'identifier les chemins causaux.
Découverte de Circuits et Intervention :
- Découverte : Des experts humains analysent les motifs d'activation et les cartes d'attention (via des méthodes de "attention rollout" sur l'encodeur SigLIP) pour regrouper les caractéristiques fonctionnellement similaires et annoter les circuits causaux.
- Intervention (Steering & Patching) : Pour valider la causalité, les auteurs modifient directement les activations des caractéristiques identifiées (par exemple, supprimer une activation ou la transférer d'un circuit à un autre) et observent l'impact sur la sortie du modèle.

3. Contributions Clés

Premier cadre de traçage de circuits pour les VLM : Extension des techniques d'interprétabilité des LLM au domaine multimodal, résolvant les défis spécifiques de l'intégration image-texte.
Infrastructure technique : Développement d'un pipeline complet incluant l'entraînement de transcodeurs par couche, la construction de graphes d'attribution adaptés aux VLM, et des outils d'analyse d'attention pour les tokens visuels.
Validation par intervention : Démonstration que les circuits découverts sont non seulement corrélés mais causaux, prouvant qu'ils peuvent être manipulés pour contrôler le comportement du modèle.

4. Résultats et Découvertes Empiriques

L'application de ce cadre sur le modèle Gemma-3-4B-it a révélé plusieurs principes fondamentaux du raisonnement multimodal :

Intégration Hiérarchique : L'intégration des concepts visuels et sémantiques est progressive. Les couches précoces traitent des motifs visuels localisés (textures, chiffres), tandis que les couches supérieures (autour de la couche 20) commencent à encoder simultanément des concepts visuels et sémantiques.
Circuits Visuels pour le Raisonnement Mathématique : Pour des tâches d'arithmétique visuelle (ex: "1 + 2"), le modèle utilise des circuits visuels intermédiaires qui codent le résultat numérique (ex: le chiffre "3") directement dans l'espace visuel, plutôt que de passer uniquement par un calcul sémantique abstrait.
Compréhension des Hallucinations (Cas des "Six Doigts") : L'analyse montre que les hallucinations (comme compter six doigts sur une main) ne proviennent pas d'une seule défaillance, mais d'une interaction entre le biais de l'encodeur visuel (qui favorise la sémantique générique de "main") et la dynamique des circuits internes qui amplifient ces signaux, étouffant les circuits de comptage précis.
Voies Parallèles et Convergence Tardive : Le modèle maintient des flux de représentation visuelle et sémantique distincts profondément dans le réseau. Par exemple, une image de Mars peut activer des associations visuelles internes (comme une "navette spatiale") indépendamment du contexte sémantique. Ces flux ne convergent qu'aux dernières couches pour former une représentation unifiée.
Espace Latent Visuel Distinct : Même au sein du composant de langage du VLM, les caractéristiques visuellement similaires (ex: loutres de mer, phoques, castors) se regroupent et s'activent conjointement, indiquant la préservation d'un espace de représentation visuel distinct.

5. Signification et Impact

Ce travail marque une avancée majeure dans l'interprétabilité de l'IA :

Scientifique : Il offre une première vue d'ensemble des mécanismes internes du raisonnement multimodal, validant l'hypothèse d'une intégration progressive et révélant la coexistence de voies de traitement parallèles.
Pratique : En prouvant la causalité des circuits, l'article ouvre la voie à des méthodes de débogage ciblé, de mitigation des hallucinations et de contrôle précis des modèles (steering).
Futur : Bien que la méthode nécessite encore un effort humain important pour l'annotation et souffre de coûts computationnels élevés, elle pose les bases pour le développement de VLM plus transparents, fiables et alignés avec les valeurs humaines.

En résumé, cette recherche transforme la compréhension des VLM d'une analyse statistique des sorties vers une ingénierie inverse de leurs mécanismes computationnels internes.

Circuit Tracing in Vision-Language Models: Understanding the Internal Mechanisms of Multimodal Thinking

🕵️‍♂️ Le Mystère de la Boîte Noire

🔧 L'Outil Magique : Les "Transcodeurs"

🗺️ La Carte du Trésor : Le "Graphique d'Attribution"

🧠 Ce qu'ils ont découvert (Les Grandes Révélations)

🎮 Le Contrôle à Distance : "Steering" et "Patch"

🏁 Pourquoi c'est important ?

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats et Découvertes Empiriques

5. Signification et Impact

Articles similaires

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems