Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Les IA voient des objets, mais pas le monde

Imaginez que vous montrez une photo de votre salon à un robot très intelligent.

Ce que le robot voit : "Il y a un canapé. Il y a une table. Il y a un chat."
Ce que le robot rate : "Le chat est sur le canapé, qui est devant la table."

Les modèles d'intelligence artificielle actuels (les "cerveaux" qui voient et parlent) sont comme des collectionneurs d'objets. Ils excellent à dire "c'est une pomme" ou "c'est une voiture", mais ils ont du mal à comprendre comment ces objets sont arrangés les uns par rapport aux autres. C'est comme si on leur donnait un sac rempli de pièces de puzzle, mais qu'on leur interdisait de les assembler pour voir l'image finale.

💡 La Solution : "Graph-of-Mark" (GoM)

Les auteurs de ce papier ont inventé une astuce géniale appelée Graph-of-Mark (ou "Graphe de Marque").

Imaginez que vous êtes un enseignant qui aide un élève à comprendre une photo complexe. Au lieu de juste lui montrer la photo, vous prenez un feutre et vous dessinez directement sur l'image :

Vous entourez chaque objet avec une couleur.
Vous donnez un numéro à chaque objet (comme "Chaise 1", "Table 2").
Le petit plus magique : Vous dessinez des flèches entre les objets pour montrer leurs relations. Une flèche de la chaise vers la table avec écrit "est devant". Une flèche du chat vers le canapé avec écrit "est sur".

C'est exactement ce que fait GoM. Avant de montrer l'image à l'intelligence artificielle, l'ordinateur dessine automatiquement ce "plan" ou cette "carte" directement sur la photo.

🧩 L'Analogie du Chef de Cuisine

Pour faire simple, comparons cela à une cuisine :

L'IA classique (sans GoM) : C'est comme un chef qui reçoit une liste d'ingrédients sur un papier : "Tomates, oignons, poêle". Il sait ce que c'est, mais il ne sait pas dans quel ordre les mettre dans la poêle. Il risque de tout mélanger.
L'IA avec GoM : C'est comme si le chef recevait la photo de la recette, mais avec des post-it colorés collés dessus. Un post-it sur la tomate dit "Coupez-moi", une flèche rouge pointe de la tomate vers la poêle en disant "Mettez-moi ici". Le chef n'a plus besoin de deviner ; la logique visuelle lui saute aux yeux.

🚀 Pourquoi est-ce révolutionnaire ?

Pas besoin de réapprendre : Habituellement, pour apprendre à un robot à mieux voir, il faut le "rééduquer" pendant des semaines avec des milliers d'heures de calcul (comme réapprendre à un enfant à marcher). GoM, c'est comme lui donner des lunettes spéciales au moment où il regarde la photo. Pas de rééducation, pas de changement de cerveau, juste une meilleure façon de voir.
C'est gratuit et rapide : L'ajout de ces flèches et de ces numéros prend moins de 2 secondes par image. C'est comme ajouter une légende rapide à une photo avant de l'envoyer.
Résultats bluffants : Les tests montrent que grâce à ces "dessins" sur l'image, les robots deviennent soudainement beaucoup plus intelligents pour répondre à des questions comme "Le chat est-il à gauche ou à droite du vase ?". Ils font moins d'erreurs et comprennent mieux l'espace.

🌍 En résumé

Graph-of-Mark, c'est comme donner une carte au trésor à une intelligence artificielle. Au lieu de lui montrer juste le terrain (la photo), on lui dessine le chemin (les relations entre les objets) directement sur le sol.

Cela permet aux robots de passer de "Je vois des choses" à "Je comprends comment les choses s'organisent", ce qui est essentiel pour des tâches réelles comme aider un robot à ranger une chambre, analyser une radiographie médicale, ou naviguer dans une ville.

Le mot de la fin : Parfois, pour rendre une machine plus intelligente, il ne faut pas changer son cerveau, mais simplement lui montrer les choses d'une manière plus claire. GoM est cette nouvelle façon de montrer les choses.

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article « Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting » en français.

1. Problématique

Les modèles de langage multimodaux (MLM) actuels, bien que performants pour la compréhension globale des images, éprouvent des difficultés majeures en raisonnement spatial. Ils tendent à traiter les images comme des « sacs d'objets » (bags of objects), négligeant les relations d'arrangement et les positions relatives (gauche/droite, au-dessus/en dessous, profondeur).

Limites des approches existantes : Les techniques de visual prompting récentes, comme Set-of-Mark (SoM), améliorent l'ancrage visuel en annotant les objets avec des marqueurs (boîtes, numéros). Cependant, elles traitent ces objets comme des entités isolées, sans capturer les relations structurelles entre eux.
Coût des alternatives : Les méthodes basées sur le fine-tuning pour améliorer le raisonnement spatial sont coûteuses en calcul, peu flexibles et nécessitent un réentraînement pour chaque nouveau domaine ou tâche.

2. Méthodologie : Graph-of-Mark (GoM)

L'article propose GoM, la première technique de visual prompting au niveau des pixels, sans réentraînement (training-free), qui intègre des graphes de scène (Scene Graphs) directement sur l'image d'entrée.

Le processus se déroule en plusieurs étapes :

Détection et Segmentation :
- Utilisation d'un ensemble de détecteurs (OWL-V2, YOLOv8, Mask R-CNN) pour identifier les objets et leurs classes.
- Raffinement des boîtes englobantes en masques de segmentation précis (via SAM-HQ).
- Fusion des boîtes redondantes par une heuristique de fusion pondérée (WBF).
Estimation des Relations (Cœur de GoM) :
- Construction d'un graphe où les nœuds sont les objets et les arêtes sont les relations spatiales.
- Types de relations : Directionnelles (au-dessus, en dessous, à gauche, à droite), de profondeur (devant, derrière) et de proximité (près de).
- Calcul : Utilisation des centres des boîtes pour les relations directionnelles et d'un estimateur de profondeur monoculaire (MiDaS) pour les relations de profondeur. Des modificateurs (toucher, très proche) sont ajoutés selon la distance.
Filtrage Intelligent :
- Pour éviter la surcharge visuelle, seuls les objets pertinents par rapport à la requête textuelle sont conservés.
- Seules les $k$ relations les plus pertinentes (basées sur la pertinence de la requête et la distance spatiale) sont retenues pour chaque objet.
Rendu Visuel (Augmentation de l'image) :
- Nœuds : Les objets sont masqués avec des couleurs spécifiques à leur classe et étiquetés par des IDs (numériques ou textuels).
- Arêtes : Les relations sont visualisées par des flèches dirigées. Des étiquettes textuelles décrivant la relation (ex: "Au-dessus") sont placées sur les flèches.
- Algorithme d'allocation : Un algorithme nouveau évite les collisions entre les marqueurs, les IDs et les flèches, en ajustant dynamiquement les positions et en utilisant des lignes pointillées pour connecter les étiquettes à leurs flèches.
Prompting :
- Le modèle reçoit l'image augmentée ( $I_{SG}$ ) et une instruction textuelle.
- Deux modes sont testés : uniquement visuel (le modèle doit déduire le graphe de l'image) ou multimodal (le graphe est aussi décrit textuellement dans le prompt).

3. Contributions Clés

Première approche de graphe visuel pixel-level : GoM est la première méthode à superposer directement un graphe de scène connecté sur l'image brute pour le raisonnement spatial, sans modifier l'architecture du modèle.
Indépendance vis-à-vis des données d'entraînement : La méthode est training-free et fonctionne avec n'importe quel MLM existant (open-source ou non), utilisant uniquement des détecteurs et segmenteurs pré-entraînés.
Analyse des relations : Contrairement à SoM qui se contente d'identifier les objets, GoM encode explicitement la structure relationnelle (topologie du graphe) dans le signal visuel.
Ressources ouvertes : Le code, les données prétraitées et les scripts d'évaluation sont publiés sous licence MIT.

4. Résultats Expérimentaux

L'évaluation a été menée sur 3 modèles MLM open-source (Gemma-3, Qwen-2.5-VL, LlamaV-o1) et 4 jeux de données (GQA, VQAv1, VQAv2, RefCOCOg).

Performance : GoM améliore systématiquement les capacités zero-shot des modèles.
- Gain de précision allant jusqu'à 11 points de pourcentage sur les tâches de réponse aux questions visuelles (VQA) et de localisation (REC).
- Les modèles de raisonnement (comme LlamaV-o1) bénéficient particulièrement de cette approche, atteignant des scores absolus élevés (ex: 83,6% sur VQA).
Comparaison avec les baselines : GoM surpasse les méthodes de segmentation simple et Set-of-Mark (SoM). SoM peut même dégrader les performances si le modèle ne parvient pas à inférer les relations correctes entre les objets isolés.
Densité du graphe : L'efficacité est maximale avec 3 à 10 entités et 4 à 16 relations. Au-delà, le bruit visuel réduit les performances.
Modalité : La combinaison d'un graphe visuel et d'une description textuelle du graphe donne les meilleurs résultats, mais le graphe visuel seul suffit à booster significativement les performances par rapport aux prompts textuels seuls.
Efficacité : Le surcoût computationnel est faible (environ 1,13 seconde par image pour le prétraitement), ce qui est acceptable compte tenu des gains en raisonnement.

5. Signification et Impact

Changement de paradigme : GoM démontre que l'injection de structures logiques et relationnelles directement dans le flux visuel est plus efficace que de compter sur la capacité du modèle à déduire ces relations à partir d'objets isolés ou de descriptions textuelles.
Accessibilité : Cette méthode permet d'exploiter le potentiel de raisonnement spatial de modèles légers et open-source, rendant ces capacités accessibles sans les coûts prohibitifs du réentraînement de modèles massifs.
Applications futures : L'article souligne le potentiel de GoM dans des domaines critiques comme la robotique, la navigation autonome, la réalité augmentée et, de manière significative, dans le domaine médical (analyse de vidéos chirurgicales, classification diagnostique), où la compréhension spatiale précise est vitale.

En résumé, Graph-of-Mark comble le fossé entre la perception d'objets et la compréhension de la scène en transformant l'image d'entrée en une représentation graphique explicite, offrant une solution robuste, légère et efficace pour le raisonnement spatial dans les modèles multimodaux.

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

🎨 Le Problème : Les IA voient des objets, mais pas le monde

💡 La Solution : "Graph-of-Mark" (GoM)

🧩 L'Analogie du Chef de Cuisine

🚀 Pourquoi est-ce révolutionnaire ?

🌍 En résumé

1. Problématique

2. Méthodologie : Graph-of-Mark (GoM)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers