Thinking with Spatial Code for Physical-World Video Reasoning

Ce papier présente « Thinking with Spatial Code », un cadre novateur qui transforme les vidéos RGB en représentations 3D explicites et temporellement cohérentes pour permettre aux grands modèles de langage de raisonner sur des questions physiques, surpassant ainsi les modèles propriétaires sur le benchmark VSI-Bench.

Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille

Publié 2026-03-09
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous regardez une vidéo de votre salon. Pour un humain, c'est simple : vous voyez un canapé, une table et une lampe. Vous savez instinctivement que la table est devant le canapé, que la lampe est à gauche de la fenêtre, et que si vous marchez vers la porte, la table restera à votre droite.

Pour une intelligence artificielle (IA) classique, c'est un cauchemar. Elle voit une succession d'images plates (2D). Elle peut dire "il y a une table", mais elle a du mal à comprendre elle est exactement dans l'espace 3D, comment elle est orientée, ou comment sa position change par rapport à vous si vous bougez. C'est comme essayer de naviguer dans une maison en regardant uniquement des photos imprimées, sans jamais pouvoir tourner la tête.

Voici comment les auteurs de cette recherche, de l'Université Johns Hopkins et de Stanford, ont résolu ce problème avec une méthode qu'ils appellent "Penser avec du Code Spatial".

1. Le Problème : L'IA qui "hallucine" l'espace

Les modèles d'IA actuels (comme les très grands modèles de langage ou les "yeux" numériques) sont très forts pour reconnaître des objets et parler. Mais quand on leur demande : "Si je me tiens devant le lave-vaisselle et que je regarde la table, le lave-linge est-il à ma gauche ou à ma droite ?", ils se trompent souvent.

Pourquoi ? Parce qu'ils essaient de deviner la réponse en regardant directement les pixels de la vidéo, un peu comme un aveugle qui tâtonne dans le noir en espérant deviner la forme des meubles. Ils manquent de "boussole" et de "règle" internes.

2. La Solution : Transformer la vidéo en "Lego Numérique"

Au lieu de laisser l'IA regarder la vidéo brute, les chercheurs ont créé un intermédiaire génial : un Encodeur Spatial.

Imaginez que cet encodeur est un architecte très rapide qui regarde la vidéo et, en une fraction de seconde, reconstruit la scène non pas en images, mais en blocs de données précis (du "code spatial").

Pour chaque objet dans la vidéo, il crée une fiche technique qui ressemble à ceci :

  • Nom : "Canapé"
  • Position : (X=2m, Y=1m, Z=3m)
  • Taille : (2m de long, 1m de large, 0.8m de haut)
  • Orientation : "Regardant vers le nord-est"

C'est comme si, au lieu de donner à l'IA une vidéo floue, on lui donnait un plan d'architecte 3D parfait et animé de la scène.

3. Le Cerveau : Le Grand Langage (LLM) qui lit le plan

Une fois que la vidéo est transformée en ce "code spatial" (ces fiches techniques précises), on la donne à un cerveau artificiel (un grand modèle de langage, comme un chatbot très intelligent).

Mais attention, on ne lui donne pas la vidéo. On lui dit : "Voici les coordonnées exactes du canapé et de la table. Maintenant, calcule la direction."

C'est la différence entre demander à quelqu'un de deviner la distance entre deux voitures en regardant une photo floue, et lui donner les coordonnées GPS exactes des deux voitures et lui demander de faire le calcul. Le résultat est instantané et précis.

4. L'Entraînement : Le Professeur Rigoureux

Pour s'assurer que l'IA ne triche pas (en donnant la bonne réponse par chance mais avec un mauvais raisonnement), les chercheurs ont utilisé une technique spéciale appelée Apprentissage par Renforcement avec une "Grille d'Évaluation" (Spatial Rubric).

Imaginez un professeur d'orientation très strict.

  • Si l'élève dit "C'est à droite" mais qu'il a utilisé les coordonnées du monde entier au lieu de se mettre à la place de l'observateur, le professeur lui met un point négatif.
  • Si l'élève construit d'abord un système de coordonnées local (comme si c'était lui qui regardait) avant de répondre, il gagne des points bonus.

Cette méthode force l'IA à penser étape par étape en utilisant les coordonnées 3D, au lieu de simplement deviner.

Pourquoi c'est révolutionnaire ?

Le résultat est bluffant. Leur modèle, qui n'est pas le plus gros du marché (il est plus petit que les géants comme GPT-5 ou Gemini), bat tous les records sur les tests de raisonnement spatial.

La leçon principale : Ce n'est pas la taille du cerveau (le nombre de paramètres) qui compte le plus pour comprendre l'espace, c'est la qualité de la carte qu'on lui donne.

  • Donner un cerveau géant une vidéo floue = il se perd.
  • Donner un cerveau moyen une carte 3D précise = il devient un expert.

En résumé, cette recherche nous dit que pour que les robots et les IA comprennent vraiment notre monde physique, il ne faut pas juste les rendre plus "intelligents" en parlant, mais il faut d'abord leur apprendre à voir en 3D et à traduire ce qu'ils voient en mathématiques précises. C'est comme passer de la peinture abstraite à l'ingénierie de précision.