Thinking with Spatial Code for Physical-World Video Reasoning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous regardez une vidéo de votre salon. Pour un humain, c'est simple : vous voyez un canapé, une table et une lampe. Vous savez instinctivement que la table est devant le canapé, que la lampe est à gauche de la fenêtre, et que si vous marchez vers la porte, la table restera à votre droite.

Pour une intelligence artificielle (IA) classique, c'est un cauchemar. Elle voit une succession d'images plates (2D). Elle peut dire "il y a une table", mais elle a du mal à comprendre où elle est exactement dans l'espace 3D, comment elle est orientée, ou comment sa position change par rapport à vous si vous bougez. C'est comme essayer de naviguer dans une maison en regardant uniquement des photos imprimées, sans jamais pouvoir tourner la tête.

Voici comment les auteurs de cette recherche, de l'Université Johns Hopkins et de Stanford, ont résolu ce problème avec une méthode qu'ils appellent "Penser avec du Code Spatial".

1. Le Problème : L'IA qui "hallucine" l'espace

Les modèles d'IA actuels (comme les très grands modèles de langage ou les "yeux" numériques) sont très forts pour reconnaître des objets et parler. Mais quand on leur demande : "Si je me tiens devant le lave-vaisselle et que je regarde la table, le lave-linge est-il à ma gauche ou à ma droite ?", ils se trompent souvent.

Pourquoi ? Parce qu'ils essaient de deviner la réponse en regardant directement les pixels de la vidéo, un peu comme un aveugle qui tâtonne dans le noir en espérant deviner la forme des meubles. Ils manquent de "boussole" et de "règle" internes.

2. La Solution : Transformer la vidéo en "Lego Numérique"

Au lieu de laisser l'IA regarder la vidéo brute, les chercheurs ont créé un intermédiaire génial : un Encodeur Spatial.

Imaginez que cet encodeur est un architecte très rapide qui regarde la vidéo et, en une fraction de seconde, reconstruit la scène non pas en images, mais en blocs de données précis (du "code spatial").

Pour chaque objet dans la vidéo, il crée une fiche technique qui ressemble à ceci :

Nom : "Canapé"
Position : (X=2m, Y=1m, Z=3m)
Taille : (2m de long, 1m de large, 0.8m de haut)
Orientation : "Regardant vers le nord-est"

C'est comme si, au lieu de donner à l'IA une vidéo floue, on lui donnait un plan d'architecte 3D parfait et animé de la scène.

3. Le Cerveau : Le Grand Langage (LLM) qui lit le plan

Une fois que la vidéo est transformée en ce "code spatial" (ces fiches techniques précises), on la donne à un cerveau artificiel (un grand modèle de langage, comme un chatbot très intelligent).

Mais attention, on ne lui donne pas la vidéo. On lui dit : "Voici les coordonnées exactes du canapé et de la table. Maintenant, calcule la direction."

C'est la différence entre demander à quelqu'un de deviner la distance entre deux voitures en regardant une photo floue, et lui donner les coordonnées GPS exactes des deux voitures et lui demander de faire le calcul. Le résultat est instantané et précis.

4. L'Entraînement : Le Professeur Rigoureux

Pour s'assurer que l'IA ne triche pas (en donnant la bonne réponse par chance mais avec un mauvais raisonnement), les chercheurs ont utilisé une technique spéciale appelée Apprentissage par Renforcement avec une "Grille d'Évaluation" (Spatial Rubric).

Imaginez un professeur d'orientation très strict.

Si l'élève dit "C'est à droite" mais qu'il a utilisé les coordonnées du monde entier au lieu de se mettre à la place de l'observateur, le professeur lui met un point négatif.
Si l'élève construit d'abord un système de coordonnées local (comme si c'était lui qui regardait) avant de répondre, il gagne des points bonus.

Cette méthode force l'IA à penser étape par étape en utilisant les coordonnées 3D, au lieu de simplement deviner.

Pourquoi c'est révolutionnaire ?

Le résultat est bluffant. Leur modèle, qui n'est pas le plus gros du marché (il est plus petit que les géants comme GPT-5 ou Gemini), bat tous les records sur les tests de raisonnement spatial.

La leçon principale : Ce n'est pas la taille du cerveau (le nombre de paramètres) qui compte le plus pour comprendre l'espace, c'est la qualité de la carte qu'on lui donne.

Donner un cerveau géant une vidéo floue = il se perd.
Donner un cerveau moyen une carte 3D précise = il devient un expert.

En résumé, cette recherche nous dit que pour que les robots et les IA comprennent vraiment notre monde physique, il ne faut pas juste les rendre plus "intelligents" en parlant, mais il faut d'abord leur apprendre à voir en 3D et à traduire ce qu'ils voient en mathématiques précises. C'est comme passer de la peinture abstraite à l'ingénierie de précision.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage multimodaux (MLLM) actuels, bien que performants pour décrire le contenu visuel, échouent souvent dans le raisonnement spatial physique à partir de vidéos. Leur limitation principale réside dans le fait qu'ils traitent les vidéos comme des séquences d'images 2D basées sur l'apparence, sans comprendre la structure 3D explicite, la continuité temporelle ou les relations géométriques entre les objets.

Les modèles actuels peinent à répondre à des questions nécessitant :

Une compréhension de la perspective (ex: "où est l'objet par rapport à un autre, vu depuis un point de vue spécifique ?").
L'orientation des objets (ex: "quel est le côté avant d'un canapé ?").
L'estimation de distances métriques et de dynamiques temporelles.
La distinction entre les coordonnées mondiales et les coordonnées locales relatives aux objets.

L'article postule que la qualité de la représentation spatiale est le goulot d'étranglement critique, bien plus que la taille du modèle de langage lui-même.

2. Méthodologie : "Thinking with Spatial Code"

Les auteurs proposent un cadre novateur qui transforme les vidéos RGB en codes spatiaux explicites (représentations 3D structurées) avant de les soumettre à un modèle de langage (LLM). L'approche se décompose en trois étapes principales :

A. Encodeur Spatial (Spatial Encoder)

Ce module convertit le flux vidéo en un code symbolique structuré. Il utilise une architecture à double encodeur :

Encodeur Sémantique (SAM-2) : Extrait les caractéristiques au niveau des objets et assure le suivi temporel (tracking) pour maintenir l'identité des objets à travers les frames.
Encodeur Géométrique (Depth Anything 3) : Extrait des caractéristiques 3D et de profondeur.
Fusion et Détection 3D : Les caractéristiques sont fusionnées via des mécanismes d'attention croisée. Une "Tête de Détection 3D" prédit pour chaque objet :
- Une étiquette sémantique.
- Une position 3D ( $p \in \mathbb{R}^3$ ).
- Une taille ( $s \in \mathbb{R}^3$ ).
- Une orientation (quaternion $r \in \mathbb{R}^4$ ).
- Une probabilité d'apparition.
Supervision Dense : Une "Tête de Profondeur" prédit des cartes de profondeur denses pour stabiliser l'apprentissage dans les zones sans objets et capturer les relations géométriques fines.

Le résultat est un Code Spatial : une liste d'objets sous forme de texte structuré (JSON), contenant leurs coordonnées 3D, tailles et orientations, enrichi par une légende de scène générée par un MLLM.

B. Raisonnement via LLM

Au lieu de donner la vidéo brute au LLM, le système injecte le Code Spatial comme entrée.

Le LLM (ici Qwen3-4B) reçoit une question textuelle et le code spatial structuré.
Il effectue un raisonnement explicite basé sur les coordonnées (calculs vectoriels, transformations de repères) pour répondre à la question.
Cela permet au LLM de raisonner directement sur des variables spatiales explicites plutôt que d'essayer de déduire la géométrie à partir de pixels.

C. Affinement par Apprentissage par Renforcement (RL)

Pour améliorer la qualité du raisonnement, les auteurs utilisent un RL avec récompense de rubric spatial (Spatial Rubric Reward).

Contrairement aux récompenses basées uniquement sur la réponse finale (accuracy), cette méthode évalue la qualité du processus de raisonnement.
La récompense pénalise les erreurs courantes : confusion entre coordonnées mondiales et locales, absence de transformation de repère, ou incohérence entre l'analyse intermédiaire et la réponse finale.
Elle récompense l'utilisation correcte des vecteurs locaux, la construction de repères de référence et la cohérence directionnelle.

3. Contributions Clés

Nouveau Paradigme : Introduction de "Thinking with Spatial Code", qui découple la perception (extraction de code 3D) du raisonnement (traitement par LLM), permettant un raisonnement géométrique explicite.
Architecture Unifiée : Proposition d'un encodeur spatial qui combine segmentation, suivi et reconstruction 3D à partir de vidéos RGB, générant des boîtes englobantes orientées (6D) et des étiquettes sémantiques.
Récompense de Rubric Spatial : Développement d'une fonction de récompense pour le RL qui supervise spécifiquement les étapes intermédiaires du raisonnement spatial (perspective, orientation, cohérence directionnelle).
Preuve Empirique : Démonstration que la qualité de la perception 3D est le facteur limitant du raisonnement spatial, surpassant l'impact de la simple augmentation de la taille du modèle.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks, notamment VSI-Bench et Video-RoboSpatial.

Performance sur VSI-Bench : Le modèle atteint un état de l'art (SOTA), surpassant des modèles propriétaires massifs comme GPT-5o, Gemini-2.5-Pro et des modèles open-source comme Qwen3-VL-8B.
- Avec un modèle de base de seulement 4B paramètres (Qwen3-4B) + l'encodeur spatial, le système obtient 60.0% de précision, contre 55.0% pour GPT-5o.
- L'ajout de la récompense RL améliore encore les performances de +3.4% à +3.5%.
Perception 3D Vidéo : L'encodeur spatial atteint des scores F1@0.25 supérieurs aux détecteurs basés sur des images (3D-MOOD) et même aux méthodes basées sur des nuages de points (SceneScript) lorsqu'elles sont évaluées sur des entrées vidéo, prouvant sa capacité à maintenir la cohérence spatio-temporelle.
Analyse d'Ablation :
- L'utilisation de codes spatiaux parfaits (Ground Truth) avec le même LLM de 4B porte la précision à 73.2%, prouvant que le LLM a le potentiel mais manque de données d'entrée de haute qualité.
- L'allocation de paramètres à l'encodeur spatial est plus efficace pour le raisonnement spatial que l'augmentation de la taille du LLM (comparaison 5.6B vs 8B).

5. Signification et Impact

Cet article marque un tournant dans la vision par ordinateur et l'IA multimodale :

Dépassement de l'approche "End-to-End" : Il démontre que pour des tâches de raisonnement physique complexe, il est plus efficace de transformer les données visuelles en représentations symboliques géométriques explicites avant de les donner au langage, plutôt que de laisser le modèle apprendre la géométrie implicitement à partir de pixels.
Efficacité des Ressources : Un modèle plus petit (4B) avec une bonne représentation spatiale surpasse des modèles géants (230B+), suggérant que la qualité des données d'entrée (représentation 3D) est plus critique que la quantité de paramètres.
Applications Robotiques et Réalité Augmentée : La capacité à raisonner sur la perspective, l'orientation et les distances métriques est essentielle pour la navigation robotique et les interactions homme-machine dans le monde physique.

En résumé, "Thinking with Spatial Code" résout le problème du raisonnement spatial en vidéo en introduisant une couche intermédiaire de "réalité géométrique" explicite, permettant aux LLMs de "penser" avec des coordonnées 3D précises plutôt qu'avec des approximations visuelles floues.