TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

Each language version is independently generated for its own context, not a direct translation.

🎨 TraceVision : Le Dessinateur qui suit votre doigt

Imaginez que vous regardez une photo avec un ami. Vous ne regardez pas tout d'un coup, n'est-ce pas ? Votre œil voyage : il commence par le visage, glisse vers le chapeau, puis descend vers le chien, et enfin s'arrête sur le fond. Ce mouvement de votre œil (ou de votre doigt si vous pointez du doigt) est une trajectoire.

Les intelligences artificielles actuelles (les grands modèles de vision) sont comme des touristes qui regardent une photo d'un coup d'œil global. Ils voient "un parc", "des arbres", "des gens". Mais ils ont du mal à comprendre l'ordre dans lequel vous regardez les choses, ou à expliquer pourquoi ils parlent de tel objet à tel moment.

TraceVision, c'est comme donner à l'IA un stylo magique et lui dire : "Ne devine pas, suis mon doigt."

1. Le Problème : L'IA qui regarde dans le vide

Actuellement, si vous demandez à une IA de décrire une image en suivant un chemin précis (par exemple : "Regarde d'abord la fenêtre, puis la table"), l'IA a souvent du mal. Elle est comme un élève qui lit un livre en sautant des lignes : elle comprend le sens global, mais elle perd le fil de l'histoire. Elle oublie que l'ordre dans lequel on regarde les choses est aussi important que les choses elles-mêmes.

2. La Solution : TraceVision, le "Guide de Visite"

Les chercheurs ont créé TraceVision. C'est un nouveau type d'IA qui comprend non seulement l'image, mais aussi le chemin parcouru par votre regard.

Voici comment cela fonctionne, avec une analogie simple :

L'Analogie du Chef d'Orchestre :
Imaginez une image comme une partition de musique complexe. Les IA classiques entendent tout le bruit en même temps. TraceVision, lui, a un chef d'orchestre (le module TVP) qui dit aux musiciens (les pixels de l'image) : "Toi, la fenêtre, joue maintenant ! Toi, la table, joue juste après !" Il synchronise ce que l'IA voit avec le mouvement de votre doigt.
Le Nettoyage de la "Trace" (Simplification Géométrique) :
Quand vous bougez votre doigt sur un écran, vous faites des tremblements, des allers-retours inutiles. C'est du "bruit". TraceVision utilise une astuce intelligente (un algorithme appelé Douglas-Peucker) pour nettoyer ce chemin.
- Imaginez un dessinateur qui doit tracer une courbe. Au lieu de dessiner 400 petits points tremblants, il ne garde que les 37 points les plus importants pour comprendre la forme. Il garde l'essentiel et jette le superflu, tout en sachant que certains points sont plus importants que d'autres (comme le nez d'un visage versus le fond du mur).

3. L'Entraînement : Le "Cours de Logique" (Dataset RILN)

Pour apprendre à TraceVision à faire cela, les chercheurs n'ont pas juste montré des photos. Ils ont créé un nouveau manuel d'apprentissage appelé RILN.

L'Analogie du Jeu de Rôle :
Au lieu de juste dire "Ceci est un chat", ils ont créé des scénarios où l'IA doit jouer un jeu :
- "Si je regarde ici, que vois-tu ?"
- "Décris cette pièce en suivant mon doigt."
- "Où est le chat ? Montre-le moi avec ton doigt."
Ils ont utilisé d'autres intelligences artificielles très puissantes (comme GPT-4) pour générer 320 000 de ces exercices. C'est comme si l'IA avait fait 320 000 heures de stage avec un professeur très exigeant pour apprendre à lier les mots, les images et les mouvements.

4. Les Super-Pouvoirs de TraceVision

Grâce à cette entraînement, TraceVision peut faire des choses impressionnantes :

Le Traducteur de Doigt : Vous tracez un chemin sur une photo, et l'IA vous raconte une histoire cohérente de ce que vous regardez, exactement dans l'ordre.
Le Détective Inverse : Vous décrivez une scène ("Il y a un chat sur le canapé"), et l'IA dessine le chemin que votre doigt aurait pris pour trouver ce chat.
Le Peintre Précis : Si vous demandez de découper un objet (segmentation), TraceVision le fait avec une précision chirurgicale, car il sait exactement où vous avez regardé pour identifier l'objet.

En Résumé

TraceVision est comme un guide touristique qui ne se contente pas de vous montrer une ville. Il suit votre regard, comprend où vous vous arrêtez, et vous explique la ville exactement dans l'ordre où vous la découvrez.

C'est un pas de géant vers une intelligence artificielle qui ne se contente pas de "voir" des pixels, mais qui comprend comment les humains observent le monde, rendant les interactions avec les machines beaucoup plus naturelles et intuitives.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de vision-langage à grande échelle (LVLM) actuels excellent dans la compréhension globale des images et la génération de texte naturel. Cependant, ils présentent des limitations majeures dans la modélisation de l'attention spatiale :

Manque de continuité temporelle : Ils traitent souvent l'image de manière statique, ignorant la dynamique temporelle de l'exploration visuelle humaine.
Attention non naturelle : Contrairement aux humains qui guident leur attention via des mouvements (doigts, regards) pour comprendre des contenus complexes, les LVLM se concentrent souvent sur des régions principales tout en négligeant le contexte ou en étant distraits par des zones non pertinentes.
Limites des approches existantes : Les méthodes actuelles utilisent des éléments de localisation statiques et discrets (boîtes englobantes, masques, points) pour guider la génération de texte. Elles échouent à capturer l'interaction complexe entre l'attention spatiale continue et les expressions linguistiques, ainsi que les dynamiques temporelles inhérentes aux trajectoires humaines.

L'objectif central est de permettre aux LVLM de comprendre et de répondre aux modèles d'attention spatiale continue (trajectoires) pour améliorer le raisonnement spatial et l'interprétabilité.

2. Méthodologie : TraceVision

TraceVision est un modèle unifié vision-langage conçu pour prédire et interpréter directement les trajectoires d'attention humaine, les traitant comme des enregistrements temporels structurés et fins. L'architecture repose sur plusieurs composants clés :

A. Prétraitement et Tokenisation des Trajectoires

Les trajectoires brutes contiennent du bruit et des redondances. TraceVision propose une approche en deux étapes :

Simplification Géométrique Sémantique : Utilisation d'une variante de l'algorithme de Douglas-Peucker guidée par la sémantique.
- La trajectoire est segmentée en fonction des limites temporelles des mots de la description.
- Un modèle LLM (Qwen2.5-VL-72B) attribue un poids d'importance à chaque phrase (de 1 à 5).
- La tolérance de simplification ( $\epsilon$ ) est adaptée dynamiquement : les segments sémantiquement importants conservent plus de détails géométriques, tandis que les segments moins importants sont fortement simplifiés. Cela réduit la densité des points (ex: de 410 à 37 points) tout en préservant la structure spatiale.
Tokenisation : Les coordonnées simplifiées sont normalisées, quantifiées et converties en tokens discrets compatibles avec le vocabulaire du modèle de langage.

B. Module de Perception Visuelle Consciente de la Trajectoire (TVP)

C'est le cœur de l'architecture, conçu pour fusionner bidirectionnellement les caractéristiques visuelles et les informations de trajectoire via des mécanismes d'attention croisée itératifs :

Amélioration Visuelle Consciente de la Trajectoire (TVF) : Les caractéristiques visuelles servent de requêtes, tandis que les embeddings de trajectoire servent de clés et de valeurs. Cela permet à la trajectoire de guider l'attention visuelle vers les régions pertinentes.
Raffinement de Trajectoire Informé par la Vision (VTR) : Les caractéristiques visuelles enrichies raffinent ensuite les représentations de la trajectoire, aidant à désambiguïser les intentions de pointage basées sur le contexte visuel.
Cette boucle de rétroaction crée des embeddings multimodaux robustes intégrant les motifs d'attention spatiale.

C. Module de Segmentation

Pour étendre les capacités à la segmentation fine, un codebook d'apprentissage et un décodeur léger (inspiré de PixelLM) sont intégrés.

L'utilisation d'un token spécial [SEG] permet au modèle de générer des masques au niveau des pixels conditionnés par la trajectoire.
Contrairement aux décodeurs lourds (comme SAM ou Mask2Former), cette approche utilise un décodeur à 2 couches (12M de paramètres) tout en maintenant des performances compétitives grâce aux priors spatiaux fournis par la trajectoire.

D. Construction du Dataset RILN

Pour pallier le manque de données d'entraînement riches en raisonnement, les auteurs ont créé RILN (Reasoning-based Interactive Localized Narratives) :

Taille : 320 000 échantillons générés automatiquement.
Méthode : Utilisation collaborative de modèles SOTA (GPT-4o, Qwen2.5VL-72B, Gemini-2.5 Pro) pour générer des tâches variées : interprétation de trajectoire, ancrage (grounding), Q&R interactif et dialogues multi-tours.
Structure : Les tâches couvrent quatre niveaux cognitifs (Global, Objet, Paragraphe, Local) pour assurer une transition progressive de la compréhension globale à l'analyse spatiale fine.

E. Stratégie d'Entraînement

Un apprentissage par curriculum en trois étapes :

Pré-entraînement : Alignement fondamental trajectoire-visuel-langage (seuls les modules TVP et les embeddings sont entraînés).
Entraînement Joint End-to-End : Déverrouillage de tous les paramètres pour optimiser la fusion multimodale.
Fine-tuning par Instruction : Adaptation aux scénarios de raisonnement complexe et de dialogue sur le dataset RILN.

3. Résultats Expérimentaux

TraceVision a été évalué sur une gamme de tâches et de benchmarks, démontrant des performances de pointe (State-of-the-Art) :

Génération de légendes guidée par trajectoire : Sur le jeu de données Localized Narratives (COCO), TraceVision surpasse tous les modèles de base (LLaVA, Ferret, Qwen2.5-VL) sur les métriques BLEU, METEOR et CIDEr.
Prédiction de trajectoire guidée par texte : Le modèle prédit des séquences de points continues à partir de descriptions textuelles avec une précision supérieure (mesurée par le score LBM - Localization-Based Metric).
Ancrage et Segmentation de référence :
- Sur RefCOCO, RefCOCO+ et RefCOCOg, TraceVision obtient les meilleurs scores pour la localisation de boîtes (P@0.5) et la segmentation (cIoU), surpassant des modèles spécialisés comme PixelLLM et RegionVLM.
- Il atteint un cIoU de 83.4 sur RefCOCO avec un décodeur très léger, comparé à 84.2 pour SAM (qui utilise 636M de paramètres).
Compréhension Vidéo : Sur les benchmarks HC-STVG et VideoRefer-Bench-D, le modèle démontre une capacité exceptionnelle à suivre les objets et les actions à travers le temps, surpassant les méthodes précédentes.
Études d'ablation :
- La fusion bidirectionnelle (TVP) est cruciale : l'attention unidirectionnelle est nettement moins performante.
- L'ordre fixe des tâches d'entraînement (curriculum) surpasse l'ordre aléatoire.
- Le dataset RILN apporte une amélioration de +23% en précision de raisonnement spatial par rapport à l'entraînement sur les données LN classiques.

4. Contributions Clés

TraceVision : Le premier modèle LVLM end-to-end capable de modéliser bidirectionnellement les trajectoires d'attention humaine pour une compréhension spatiale fine.
Module TVP et Simplification Sémantique : Une architecture innovante pour fusionner les trajectoires irrégulières avec les caractéristiques visuelles, couplée à une stratégie de réduction de bruit préservant la sémantique.
Dataset RILN : La création d'un jeu de données massif (320k échantillons) enrichi en raisonnement logique et en instructions interactives, comblant un vide dans les données d'entraînement existantes.
Performance et Efficacité : Démonstration qu'une approche guidée par la trajectoire permet d'atteindre des performances SOTA en localisation et segmentation avec une architecture de décodeur extrêmement légère.

5. Signification et Impact

Ce travail marque une avancée significative dans la compréhension visuelle des machines en introduisant une interaction spatiale intuitive basée sur les trajectoires, mimant le processus cognitif humain.

Interprétabilité : En liant explicitement les descriptions textuelles à des trajectoires d'attention, le modèle devient plus transparent et facile à déboguer.
Applications : Les résultats ouvrent la voie à des applications avancées en réalité virtuelle, conduite autonome (prédiction de l'attention du conducteur), et interfaces homme-machine naturelles où l'utilisateur peut pointer ou décrire des mouvements pour interagir avec le système.
Fondation pour l'interaction future : TraceVision établit une base pour des systèmes multimodaux capables de raisonner sur l'espace et le temps de manière continue, dépassant les limites des approches statiques actuelles.