Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un super-héros numérique, un Vision-Language Model (VLM). C'est une intelligence artificielle très intelligente qui peut voir des images et parler comme un humain. Elle est capable de décrire ce qu'elle voit, de raconter une histoire à partir d'une photo, ou même de répondre à des questions complexes.

Mais il y a un petit problème : ce super-héros est parfois un peu maladroit avec l'espace.

Si vous lui montrez une photo d'un chien et d'un cheval, et que vous lui demandez : "Est-ce que le chien regarde le cheval ?", il peut se tromper. Il voit les deux animaux, mais il a du mal à comprendre la direction du regard ou la position relative des objets. C'est comme si quelqu'un avait de très bons yeux, mais qui avait un peu perdu sa boussole interne.

Les chercheurs de cette étude se sont demandé : "Où se cache ce problème dans le cerveau de l'IA ?"

1. Le Cerveau de l'IA : Une Armée de Petits Experts

Pour comprendre comment l'IA fonctionne, il faut savoir qu'elle n'a pas un seul "cerveau" unique. Elle est composée de millions de petits calculs appelés "têtes d'attention".

Imaginez le cerveau de l'IA comme une grosse salle de réunion remplie de centaines de petits experts.

Certains experts sont des détecteurs de couleurs (ils disent "Oh, c'est rouge !").
D'autres sont des experts en objets (ils disent "C'est un chien !").
D'autres encore sont des spécialistes du langage (ils comprennent la grammaire).

Le but de cette étude était de trouver les experts spécialisés dans l'espace. Qui sont ceux qui disent "Le chien est à gauche du cheval" ou "Le chat est en haut de l'arbre" ?

2. La Grande Découverte : Les Experts de l'Espace sont Rares !

En analysant la "salle de réunion" de plusieurs modèles d'IA (comme Qwen, Llama, Intern), les chercheurs ont fait une découverte surprenante :

La rareté : Il y a des milliers d'experts pour reconnaître des objets ou comprendre des mots, mais il y a très peu d'experts pour l'espace. C'est comme si dans une entreprise de 1000 employés, il n'y avait que 2 personnes capables de lire une carte, alors que tout le monde sait écrire des emails.
La dispersion : Ces quelques experts de l'espace sont éparpillés un peu partout, pas regroupés au même endroit. Ils sont comme des aiguilles dans une botte de foin.

C'est pour cela que l'IA a du mal avec les questions spatiales : elle n'a pas assez de "muscles" dédiés à cette tâche précise.

3. La Méthode : Le "Test de Stress" (CogVSR)

Pour trouver ces experts, les chercheurs ont créé un nouveau jeu de questions appelé CogVSR. Au lieu de poser une seule question difficile, ils ont décomposé le problème en petites étapes, comme un humain le ferait :

Quels animaux voyez-vous ? (Perception visuelle de haut niveau)
Où est le chien par rapport au cheval ? (Perception spatiale)
Le chien regarde-t-il vers le cheval ? (Raisonnement relationnel)
Donc, est-ce vrai ou faux ? (Prise de décision)

En observant l'IA répondre à ces petites étapes, ils ont pu voir quels experts dans la salle de réunion se réveillaient à chaque moment. Ils ont découvert que pour les étapes spatiales, seuls quelques experts très spécifiques s'activaient.

4. La Solution : Réveiller les Experts Endormis

Une fois qu'ils ont trouvé ces experts de l'espace (qui sont rares et parfois un peu timides), les chercheurs ont voulu les aider à travailler mieux. Ils ont utilisé deux techniques :

Le "Test de Stress" (Ablation) : Ils ont éteint ces experts de l'espace. Résultat ? L'IA est devenue complètement perdue et a fait des erreurs massives. Cela prouve qu'ils sont essentiels.
L'Activation (SHA) : Ils ont trouvé un moyen de "réveiller" ces experts endormis. Imaginez que vous mettiez des lunettes spéciales à l'IA ou que vous lui donniez des indices visuels supplémentaires (comme des cadres autour des objets). Cela force les experts de l'espace à se concentrer.
- Résultat magique : En activant ces experts, la précision de l'IA sur les questions spatiales a augmenté de plus de 10 % ! C'est comme donner une boussole à quelqu'un qui se promenait à l'aveugle.

En Résumé

Cette étude nous dit deux choses importantes :

Le diagnostic : Les IA actuelles ont du mal avec l'espace non pas parce qu'elles sont "stupides", mais parce qu'elles n'ont pas assez de "spécialistes de l'espace" dans leur cerveau.
Le remède : Si on sait comment réveiller et stimuler ces spécialistes, on peut rendre l'IA beaucoup plus intelligente pour comprendre le monde qui l'entoure, sans même avoir besoin de la réentraîner de zéro.

C'est un peu comme si on découvrait que pour faire courir un marathon, il ne faut pas entraîner tout le corps de la même manière, mais qu'il faut juste donner un petit coup de pouce spécifique aux muscles des jambes. Ici, les chercheurs ont trouvé exactement quels muscles (les têtes d'attention) muscler pour que l'IA ne se perde plus jamais !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Bien que les Modèles de Langage et de Vision (VLM) aient connu des progrès remarquables dans la compréhension multimodale, le raisonnement spatial reste un défi persistant. Les modèles actuels éprouvent des difficultés même avec des tâches d'orientation simples (ex: "Le chien fait-il face au cheval ?").

L'article postule que pour comprendre cette limitation, il faut examiner les mécanismes internes des modèles, en particulier les têtes d'attention (attention heads) au sein de l'architecture Transformer. Contrairement aux études précédentes qui se concentraient sur l'alignement visuel ou le "grounding" simple, cette recherche vise à identifier comment les différentes fonctions cognitives (perception spatiale, raisonnement relationnel, etc.) sont distribuées et spécialisées au sein des têtes d'attention des VLM.

2. Méthodologie

L'approche de l'article repose sur trois piliers principaux : la création d'un nouveau benchmark, un cadre d'analyse mécaniste, et des interventions expérimentales.

A. Le Dataset CogVSR (Cognitive Vision Spatial Reasoning)

Pour analyser le raisonnement spatial de manière granulaire, les auteurs ont créé CogVSR, un dataset qui décompose des questions complexes de raisonnement spatial en sous-questions séquentielles (paradigme Chain-of-Thought).

Structure : Chaque exemple comprend une question principale, une réponse finale, et une série de sous-questions intermédiaires.
Fonctions Cognitives : Chaque sous-question est étiquetée avec l'une des huit fonctions cognitives définies, inspirées par la science cognitive :
1. Perception Spatiale (positions, géométrie).
2. Raisonnement Relationnel (relations entre entités).
3. Perception Visuelle de Haut Niveau (reconnaissance d'objets).
4. Perception Visuelle de Bas Niveau (couleurs, formes).
5. Extraction et Compréhension d'Information.
6. Rappel de Connaissances.
7. Raisonnement Mathématique.
8. Prise de Décision.
Validation : Le dataset a été généré automatiquement puis validé par un pipeline rigoureux de vérification humaine en deux étapes pour garantir la cohérence logique et l'exactitude des étiquettes.

B. Cadre d'Investigation par Sondage (Probing Framework)

Les auteurs utilisent une approche d'interprétabilité mécaniste pour identifier les têtes d'attention responsables de chaque fonction :

Extraction des caractéristiques : Pour chaque sous-question, ils extraient les activations des têtes d'attention sur les tokens les plus importants (top-k) générés par le modèle.
Classification : Un classifieur multi-étiquettes (MLP) est entraîné pour prédire la fonction cognitive à partir des activations des têtes.
Score d'Importance : Une méthode d'attribution basée sur le gradient (gradient $\times$ activation) calcule un score d'importance pour chaque tête par rapport à chaque fonction. Cela permet d'identifier les "têtes cognitives" spécialisées.

C. Interventions et Activation

Pour valider le rôle causal de ces têtes, deux types d'interventions sont réalisés :

Ablation (Intervention Négative) : Masquage ou atténuation des sorties des têtes identifiées comme "cognitives" pour observer la dégradation des performances.
Activation Latente (SHA - Spatial Head Activation) : Une méthode proposée pour réactiver les têtes spatiales latentes. Elle consiste à fournir au modèle des indices visuels supplémentaires (boîtes englobantes et masques d'instance) générés par un autre modèle (Gemini 2.5-Flash) afin de forcer le modèle à se concentrer sur la perception spatiale plutôt que sur la reconnaissance d'objets pure.
Intervention Positive : Décalage des activations des têtes vers la direction de la fonction cible pour améliorer les performances.

3. Contributions Clés

CogVSR : Introduction d'un benchmark cognitivement fondé qui décompose le raisonnement spatial en sous-processus interprétables, permettant une analyse fine des étapes de raisonnement.
Cartographie des Têtes Cognitives : Développement d'un cadre systématique pour identifier et caractériser les têtes d'attention spécialisées dans des fonctions cognitives spécifiques au sein de familles de VLM variées (Intern, Qwen, Llama).
Découverte de la Rareté Spatiale : Mise en évidence du fait que les têtes spécialisées dans le raisonnement spatial sont universellement rares et moins nombreuses que celles dédiées à d'autres fonctions (comme l'extraction d'information).
Méthode SHA : Proposition d'une méthode d'activation des têtes spatiales latentes qui améliore la compréhension spatiale sans réentraînement complet du modèle.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois familles de modèles à différentes échelles (InternVL3, Qwen2.5-VL, Llama3.2-Vision).

Sparsité et Universalité : L'analyse révèle que les têtes fonctionnelles sont extrêmement rares (moins de 9% des têtes ont un score d'importance significatif) et que cette organisation sparse est universelle à travers différentes architectures et tailles de modèles.
Rareté Spatiale : Les têtes dédiées à la "Perception Spatiale" et au "Raisonnement Relationnel" sont significativement moins nombreuses et moins importantes que celles pour la perception visuelle de haut niveau ou l'extraction d'information. Cela suggère une sous-représentation intrinsèque du raisonnement spatial dans les VLM actuels.
Impact des Interventions :
- Ablation : Masquer les têtes cognitives identifiées entraîne une chute drastique des performances (parfois en dessous de 20% de précision), prouvant leur rôle critique. À l'inverse, masquer des têtes aléatoires a un impact négligeable.
- Activation (SHA) : L'application de la méthode SHA (ajout de boîtes et masques) a permis d'augmenter la précision de plus de 10% sur les tâches de perception spatiale et de raisonnement relationnel pour le modèle InternVL3-2B.
- Intervention Positive : Le décalage des activations vers les directions fonctionnelles a également amélioré les performances sur des tâches en domaine et hors domaine (benchmarks VSR, SpatialEval, etc.).

5. Signification et Impact

Cette étude offre une nouvelle perspective sur le fonctionnement interne des VLM :

Compréhension Mécaniste : Elle démontre que le raisonnement spatial complexe n'est pas une propriété émergente globale, mais repose sur un ensemble restreint et spécialisé de têtes d'attention.
Diagnostic des Limites : La rareté des têtes spatiales identifie une cause fondamentale des échecs des VLM en raisonnement spatial, au-delà du manque de données d'entraînement.
Voie pour l'Amélioration : Les résultats montrent qu'il est possible d'améliorer les capacités de raisonnement spatial en ciblant spécifiquement ces composants internes (via activation ou intervention), ouvrant la voie à des modèles multimodaux plus robustes et interprétables, inspirés par les processus cognitifs humains.

En conclusion, ce travail établit un lien direct entre l'architecture des têtes d'attention et les capacités de raisonnement spatial, fournissant à la fois un outil d'analyse (CogVSR) et une méthode pratique (SHA) pour surmonter les limitations actuelles des VLM.