Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à un robot à faire la vaisselle. Les robots classiques sont comme des élèves qui apprennent par cœur : on leur montre une image d'un verre et on leur dit "prends-le", et ils répètent ce mouvement. Mais si le verre est à un endroit différent, ou s'il y a un jouet sur la table, ils sont perdus. Ils ne comprennent pas vraiment pourquoi ils bougent, ni ce qui va se passer ensuite.

Le papier que nous allons explorer, appelé SSM-VLA, propose une nouvelle façon de penser pour les robots. Au lieu d'apprendre par cœur, il leur apprend à imaginer et à comprendre l'espace.

Voici une explication simple, avec des analogies du quotidien, de comment cela fonctionne :

1. Le Problème : Le Robot "Aveugle" et à Court Terme

Les robots actuels ont deux gros défauts, comme un conducteur qui regarde seulement le pare-brise sans voir les lignes de la route :

Ils ne voient pas la structure : Ils voient la couleur d'une tasse (la texture), mais pas sa forme 3D ou sa profondeur. C'est comme essayer de ranger des objets dans un tiroir en regardant seulement une photo plate.
Ils oublient le futur : Ils ne pensent qu'à l'action immédiate. Ils ne se demandent pas : "Si je pousse ce cube maintenant, où sera-t-il dans 3 secondes ?".

2. La Solution : Le Robot "Rêveur" et Géomètre

Les auteurs ont créé un système en trois étapes, qu'ils appellent SSM-VLA. On peut le comparer à un chef cuisinier très expérimenté qui prépare un plat complexe.

Étape 1 : Le "Rêveur" (Visual CoT) – Imaginez avant d'agir

Avant de toucher à quoi que ce soit, le robot s'arrête et imagine la scène future.

L'analogie : C'est comme quand vous voulez ranger votre chambre. Vous ne commencez pas à courir partout. Vous fermez les yeux un instant et vous visualisez : "Si je mets ce livre ici, l'espace sera libre pour mettre la plante".
Dans le robot : Le modèle prédit à quoi ressemblera l'image dans une seconde (ou plusieurs). Il ne se contente pas de dire "prends l'objet", il génère une image mentale de ce qui va se passer. Cela l'aide à vérifier si son plan est logique avant même de bouger.

Étape 2 : Le "Géomètre" (Farsighted-LAM) – Comprendre l'espace et le mouvement

Pour bien imaginer, il faut comprendre la géométrie (la forme des objets) et le mouvement.

L'analogie : Imaginez un sculpteur. Un débutant voit juste de la pierre. Un expert voit la forme cachée à l'intérieur et sait comment la pierre va se briser si on tape ici. Le robot utilise une technologie spéciale (DINOv2) pour voir les "squelettes" et les profondeurs des objets, pas juste leurs couleurs.
Dans le robot : Au lieu de regarder deux images séparées, il regarde une séquence d'images futures. Il apprend à deviner le mouvement comme on devine la trajectoire d'une balle de tennis en regardant le lancer du joueur. Il crée une "action latente" : une sorte de commande mentale abstraite qui dit "pousse doucement vers la gauche" plutôt que "tourne le moteur de 15 degrés".

Étape 3 : L'Exécution – Agir avec confiance

Une fois qu'il a imaginé le futur et compris la géométrie, le robot agit.

L'analogie : C'est comme un pianiste qui a répété la partition dans sa tête (l'imagination) et comprend la structure de l'instrument (la géométrie). Quand il pose ses doigts sur les touches, le mouvement est fluide et précis, même si le piano est différent de celui qu'il a pratiqué avant.
Dans le robot : Grâce à ses prévisions, le robot peut s'adapter à de nouveaux environnements (une nouvelle table, un nouvel objet) sans avoir besoin de réapprendre tout depuis zéro.

Pourquoi est-ce si important ?

Dans les tests, ce robot a réussi des tâches complexes beaucoup mieux que les autres.

Résultat : Il a réussi à enchaîner plusieurs tâches (ouvrir un tiroir, prendre un objet, le mettre dans un autre tiroir) avec un taux de réussite record.
La magie : La clé est qu'il ne se contente pas de réagir. Il raisonne. Il se demande : "Si je fais ça, qu'est-ce qui va se passer ?".

En résumé

Imaginez que vous apprenez à un enfant à jouer aux échecs.

Les anciens robots apprenaient par cœur : "Si l'adversaire va là, je vais ici". Si l'adversaire change de stratégie, ils sont perdus.
Le nouveau robot (SSM-VLA) apprend à comprendre le plateau (géométrie) et à simuler les coups futurs (imagination). Il ne joue pas au hasard, il joue avec une stratégie claire.

Ce papier nous dit que pour créer de vrais robots intelligents capables de vivre dans notre monde désordonné, il faut leur apprendre à voir l'espace en 3D et à rêver leur futur avant d'agir. C'est un pas de géant vers des robots qui ne sont plus de simples exécutants, mais de véritables assistants capables de s'adapter.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles d'actions latentes (LAMs) permettent aux systèmes Vision-Langage-Action (VLA) d'apprendre des représentations sémantiques d'actions à partir de données non annotées à grande échelle. Cependant, l'article identifie deux goulots d'étranglement majeurs limitant leur robustesse dans le raisonnement incarné :

Compréhension spatiale inadéquate : Les encodeurs d'images entraînés de bout en bout (basés sur le RGB) tendent à se focaliser sur les textures de surface, négligeant la structure géométrique (relations entre objets, agencement de la scène, profondeur implicite).
Perception temporelle limitée : La plupart des méthodes actuelles reposent sur des entrées d'images espacées (souvent deux cadres), ce qui empêche la capture des dynamiques à long terme et des transitions de mouvement fines.

Ces déficiences entraînent des représentations d'actions instables et ambiguës, compromettant la fiabilité des décisions des robots.

2. Méthodologie

Les auteurs proposent une approche en deux volets : un nouveau modèle d'actions latentes (Farsighted-LAM) et un cadre VLA complet (SSM-VLA).

A. Farsighted-LAM (Modèle d'Action Latente à Longue Portée)

Ce modèle vise à apprendre un espace d'actions latentes structuré en améliorant la fidélité spatiale et temporelle :

Encodage spatial conscient de la géométrie : Au lieu d'utiliser uniquement le RGB, le modèle intègre des caractéristiques issues de DINOv2 (un encodeur pré-entraîné riche en structures sémantiques) et utilise la profondeur (depth) comme signal de supervision supplémentaire. Cela permet de capturer les priors structurels (disposition spatiale, relations objets).
Modélisation temporelle multi-échelle : Le modèle ne prédit pas une seule action future, mais une séquence d'actions latentes à partir d'une fenêtre temporelle de $N$ images futures. Cela permet de capturer à la fois les tendances de mouvement soutenues et les interactions transitoires.
Architecture Encodeur-Décodeur :
- L'encodeur prend en entrée les caractéristiques visuelles d'une séquence d'images futures et des requêtes d'actions latentes pour générer une séquence de tokens discrets (actions latentes quantifiées).
- Le décodeur tente de reconstruire l'image future (RGB et profondeur) à partir de l'image initiale et de l'action latente quantifiée.
- Perte de reconstruction : Une perte multi-modale combine une perte photométrique (RGB + LPIPS) et une perte de profondeur (gradient-aware logarithmique) pour garantir la cohérence à la fois visuelle et géométrique.

B. SSM-VLA (Seeing Space and Motion VLA)

C'est le cadre de politique VLA de bout en bout qui intègre Farsighted-LAM et un module de raisonnement explicite :

Architecture en trois étapes (Cascaded) :
1. Prédiction Visual CoT (Chain-of-Thought) : Le modèle prédit d'abord l'état visuel futur immédiat (image et profondeur) à partir de l'historique et de l'instruction. Cela force le modèle à "imaginer" l'environnement avant d'agir.
2. Inférence d'Action Latente à Longue Portée : En utilisant l'état futur prédit, le modèle infère une séquence d'intentions d'actions latentes ( $\hat{z}_{t+k}$ ) sur un horizon étendu.
3. Génération d'Action : Un module de politique (basé sur le Flow Matching) convertit le contexte complet (historique, état futur prédit, plan d'actions latentes) en commandes motrices réelles.
Mécanisme d'Attention Synergique Multi-Modale : Une architecture Transformer unifiée utilise un masquage causal spécifique pour chaque étape. Cela empêche la "fuite d'information" (le modèle ne peut pas tricher en regardant le futur) et force chaque composant à se spécialiser dans sa tâche (prédiction visuelle, planification latente, exécution).

3. Contributions Clés

Farsighted-LAM : Un nouveau modèle d'actions latentes qui intègre des priors géométriques (via DINOv2 et la profondeur) et une modélisation temporelle multi-échelle pour une représentation robuste des structures de scène et des dynamiques.
SSM-VLA : Un cadre VLA de bout en bout qui combine la perception structurée avec un module de raisonnement "Chain-of-Thought" visuel, améliorant la cohérence décisionnelle et l'interprétabilité.
Performance SOTA : Démonstration que la combinaison de la modélisation géométrique, de la cohérence temporelle et du raisonnement explicite améliore significativement la robustesse et la généralisation des agents incarnés.

4. Résultats Expérimentaux

Les expériences ont été menées sur des environnements simulés (benchmark CALVIN) et réels.

Benchmark CALVIN (Simulation) :
- SSM-VLA atteint des performances de pointe (State-of-the-Art) sur la tâche ABC-D (généralisation à un environnement non vu).
- Il surpasse les modèles de prédiction directe (ex: Roboflamingo), les modèles d'actions latentes (ex: Moto-GPT, UniVLA) et les modèles de prévision visuelle (ex: Seer, VPP).
- Métrique clé : Longueur moyenne de chaîne de tâches réussies de 4,38 (contre 4,29 pour le précédent meilleur modèle, VPP).
Expériences Réelles :
- Déploiement réussi sur un robot physique (AgileX Piper) pour des tâches de manipulation dans des environnements désordonnés, prouvant la capacité de généralisation hors simulation.
Études d'ablation :
- L'utilisation d'un contexte de 3 images (plutôt que 1) améliore la cohérence temporelle.
- La suppression du module LAM entraîne une chute significative des performances.
- La supervision par la profondeur est cruciale pour les tâches nécessitant un raisonnement spatial 3D précis (ex: pousser un objet dans un tiroir), mais moins critique pour les tâches basées sur la couleur.
- Le mécanisme d'attention synergique est essentiel ; un masquage causal simple entraîne une dégradation drastique des performances.

5. Signification et Conclusion

Ce travail démontre que l'intégration explicite de la conscience géométrique (via la profondeur et les caractéristiques structurelles) et de la cohérence temporelle (via la prédiction de séquences d'images et d'actions) est fondamentale pour les systèmes d'intelligence incarnée.

En adoptant une approche de type "Imaginez d'abord, puis agissez" (Visual CoT), SSM-VLA résout les problèmes d'instabilité et d'ambiguïté sémantique des modèles VLA existants. L'article établit une nouvelle référence pour l'apprentissage de politiques robotiques robustes capables de planifier sur de longs horizons et de généraliser à travers différentes plateformes et environnements complexes.