Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Titre : "Les Nœuds sont Précoces, les Arêtes sont Tardives"

Imaginez que vous donnez un dessin complexe (un diagramme avec des points reliés par des flèches) à un robot très intelligent, un Modèle Vision-Langage (LVLM). Ce robot est censé comprendre le dessin et répondre à des questions dessus.

Les chercheurs ont découvert un problème étrange : le robot est excellent pour voir les points (les nœuds), mais il a beaucoup de mal à comprendre les liens entre eux (les flèches ou arêtes). C'est comme si le robot voyait parfaitement les personnages d'une pièce de théâtre, mais ne comprenait pas qui parle à qui.

Pourquoi ? C'est ce que cette étude a voulu découvrir en regardant "sous le capot" du cerveau du robot.

🔍 L'Expérience : Le Laboratoire de Dessins Fabriqués

Pour ne pas se tromper à cause de dessins trop réels ou compliqués, les chercheurs ont créé un laboratoire de dessins synthétiques.

Le décor : Des graphiques simples avec 5 points (A, B, C...) de différentes couleurs et formes, reliés par des lignes.
Le test : Ils posent des questions au robot : "De quelle couleur est le point A ?" ou "La flèche va-t-elle de A vers B ?".

Ensuite, ils utilisent une technique appelée "Sondage" (Probing). C'est comme si on installait des microphones à chaque étage de l'ascenseur du cerveau du robot pour écouter ce qu'il pense à chaque étape de son analyse.

🧠 Ce qu'ils ont découvert : Deux types de mémoire

Leur découverte principale ressemble à une différence de rythme entre deux types d'informations :

1. Les Nœuds (Les Points) : Les "Super-Héros Précoces" 🦸‍♂️

Ce qu'ils sont : La couleur d'un point, sa forme, ou le nombre total de points.
Où ça se passe : Dès que le robot regarde l'image (dans le Vision Encoder), ces informations sont immédiatement claires et séparables. C'est comme si le robot avait une étiquette collée directement sur chaque point dès la première seconde.
L'analogie : Imaginez que vous entrez dans une pièce remplie de ballons colorés. Vous voyez immédiatement "Rouge", "Bleu", "Gros", "Petit". C'est instantané. Le robot le fait aussi.

2. Les Arêtes (Les Liens/Flèches) : Les "Légendaires Tardifs" 🐢

Ce qu'ils sont : La couleur de la ligne, la direction de la flèche, ou s'il y a un chemin entre deux points.
Où ça se passe : Ces informations n'existent pas clairement dans la partie visuelle du cerveau du robot. Elles ne deviennent claires que beaucoup plus tard, une fois que le robot a commencé à penser en mots (dans le Language Model).
L'analogie : C'est comme si le robot voyait les ballons, mais pour comprendre que le ballon rouge est attaché au ballon bleu par un fil, il doit d'abord arrêter de regarder l'image, fermer les yeux, et se dire : "Attends, je me souviens qu'il y a un fil rouge qui relie les deux". Il doit transformer l'image en une phrase mentale pour comprendre le lien.

🛠️ La Preuve : Le "Patch" (La Greffe)

Pour être sûrs que ce n'est pas juste une théorie, les chercheurs ont fait une expérience de "chirurgie" (Intervention Causale) :

Ils ont pris les parties du cerveau du robot qui voyaient bien les points et les ont "brouillées" (remplacées par du bruit).
Résultat : Le robot a perdu la capacité de répondre aux questions sur les points.
Résultat sur les liens : Quand ils ont brouillé les parties qui voyaient mal les liens (dans la vision), le robot n'a pas changé de comportement. Cela prouve qu'il ne comptait pas sur ces parties pour comprendre les liens. Il comptait sur sa partie "langage" pour les déduire.

💡 La Conclusion : Pourquoi c'est important ?

Cette étude nous dit que les robots actuels ne "voient" pas les diagrammes comme des humains.

Pour les humains, voir un point et la flèche qui en sort est un seul et même instantané.
Pour le robot, c'est deux étapes séparées : d'abord il identifie les objets, puis il doit faire un effort mental complexe (en passant par le texte) pour comprendre comment ils sont connectés.

En résumé :
Les robots sont très forts pour dire "Ceci est un point rouge". Mais ils sont encore un peu lents et maladroits pour dire "Ce point rouge envoie un message à ce point bleu". C'est cette "latence" (ce retard) dans la compréhension des liens qui explique pourquoi ils font des erreurs sur les diagrammes complexes.

Pour construire de meilleurs robots, il faudra peut-être leur apprendre à voir les liens directement dans l'image, sans avoir à les traduire en mots d'abord.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles vision-langage (LVLM) démontrent des performances solides sur les benchmarks de compréhension de diagrammes. Cependant, ils éprouvent des difficultés persistantes à comprendre les relations entre les éléments, en particulier celles représentées par des nœuds et des arêtes dirigées (flèches, lignes). Les études antérieures ont identifié ce problème, mais aucune n'a encore examiné de manière exhaustive comment les LVLMs représentent internement les éléments de base des diagrammes (nœuds, arêtes, structure globale) pour en comprendre les causes racines.

L'hypothèse centrale est que la difficulté des modèles à interpréter les relations (comme la direction des flèches) pourrait provenir de la manière dont l'information visuelle est encodée et rendue accessible (linéairement séparable) à différentes étapes du traitement du modèle.

2. Méthodologie

Pour investiguer ces mécanismes internes, les auteurs ont conçu une approche rigoureuse combinant un jeu de données synthétique et des techniques d'analyse de représentations :

Jeu de données synthétique ( $D_{synth}$ ) :
- Création de diagrammes basés sur des graphes dirigés avec un contrôle précis sur les attributs visuels (couleur, forme, nombre de nœuds, connectivité, direction des arêtes).
- Définition de 11 aspects visuels regroupés en trois catégories :
  - Single : Informations localisées autour d'un seul nœud (ex: couleur du nœud A).
  - Multiple : Combinaisons nécessitant une relation entre deux nœuds (ex: couleur de l'arête entre A et B, direction).
  - Global : Informations nécessitant une vue d'ensemble (ex: nombre total de nœuds).
- Utilisation de deux variantes de disposition : aléatoire ( $D_{rand}$ ) et fixe ( $D_{fix}$ ) pour éviter les biais de positionnement.
- Introduction d'un mécanisme de "données nulles" ( $D_{\perp}$ ) pour forcer le modèle à vérifier l'existence d'un élément avant de prédire ses attributs, évitant ainsi l'apprentissage de raccourcis (shortcuts).
Sondage (Probing) :
- Entraînement de classificateurs linéaires simples sur les états cachés ( $h_{l,t}$ ) du Vision Encoder (par patch d'image) et du Language Model (par token de texte).
- Objectif : Déterminer à quelle couche et à quelle position l'information est linéairement séparable (c'est-à-dire facilement décodable).
Intervention Causale :
- Remplacement des états cachés des patches présentant une haute précision de sondage par la moyenne des autres patches.
- Mesure de l'impact de cette "corruption" sur la performance finale du modèle (VQA) pour vérifier si l'information encodée est causalement utilisée pour le raisonnement.
Modèles étudiés : Principalement Qwen3-VL-8B, avec des validations sur Qwen2.5-VL, LLaVA1.5 et Gemma3.

3. Résultats Clés

Les expériences révèlent une divergence fondamentale dans la façon dont les LVLMs traitent les nœuds par rapport aux arêtes :

A. Encodage dans le Vision Encoder (Image)

Informations "Single" et "Global" : Les attributs des nœuds (couleur, forme) et les informations globales (nombre de nœuds) deviennent linéairement séparables tôt dans le Vision Encoder, souvent au niveau d'un seul patch d'image correspondant à la position du nœud ou répartis sur les patches de fond.
Informations "Multiple" (Arêtes) : Les informations relatives aux arêtes (couleur, style, existence, direction) ne sont pas linéairement séparables dans le Vision Encoder, même aux couches profondes. Elles restent difficiles à décoder à partir d'un seul état caché d'image.

B. Encodage dans le Language Model (Texte)

Conditionnement par le texte : Les informations sur les arêtes ne deviennent linéairement séparables que dans le Language Model, et spécifiquement au niveau des tokens de texte qui posent la question (ex: le token "edge" ou "direction").
Mécanisme d'agrégation : Le modèle semble agréger sélectivement les informations visuelles dispersées (ou absentes sous forme linéaire dans l'image) vers les tokens de texte pertinents lors du traitement séquentiel.
Exception : La direction des arêtes reste difficile à décoder même dans le langage, ce qui correspond aux faibles performances du modèle sur cette tâche.

C. Validation Causale

L'intervention sur les états cachés du Vision Encoder (où les nœuds sont bien encodés) entraîne une chute drastique de la précision VQA pour les tâches liées aux nœuds et au comptage global.
En revanche, l'intervention sur les arêtes dans le Vision Encoder a peu d'effet, confirmant que le modèle ne repose pas sur une représentation linéaire directe de ces relations dans l'encodeur visuel pour le raisonnement.

4. Contributions Principales

Nouveau Dataset Synthétique : Introduction d'un jeu de données contrôlé pour l'analyse fine des diagrammes, réduisant les biais des données naturelles et permettant une analyse causale précise.
Découverte de l'Asymétrie Temporelle : Mise en évidence que la représentabilité linéaire des informations visuelles dépend du type d'information :
- Nœuds (Early) : Encodés tôt et localement dans le Vision Encoder.
- Arêtes (Late) : Encodées tardivement, uniquement après intégration dans le Language Model via les tokens de texte.
Explication des Limites de Raisonnement : L'article propose que la difficulté des LVLMs à comprendre les relations (flèches, directions) est due au fait que ces informations nécessitent un processus d'intégration compositionnelle plus complexe et abstrait, qui n'est pas disponible sous forme linéaire immédiate dans la vision.

5. Signification et Implications

Ce travail offre une explication mécaniste aux échecs des LVLMs sur les tâches de raisonnement relationnel dans les diagrammes. Il suggère que :

La compréhension des relations n'est pas une propriété inhérente à la vision pure, mais émerge d'une interaction tardive entre la vision et le langage.
Pour améliorer les diagrammes, les futures architectures devraient peut-être faciliter l'extraction précoce des relations structurelles ou renforcer les mécanismes d'agrégation dans le module de langage.
L'analyse par sondage (probing) combinée à l'intervention causale est une méthode robuste pour diagnostiquer les goulots d'étranglement cognitifs dans les modèles multimodaux.

En résumé, l'article conclut que "les nœuds sont précoces, les arêtes sont tardives", soulignant une asymétrie fondamentale dans le traitement de l'information visuelle structurée par les modèles d'IA actuels.