EmboAlign: Aligning Video Generation with Compositional Constraints for Zero-Shot Manipulation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez apprendre à un robot à faire des tâches complexes, comme empiler des cubes ou verser de l'eau, sans avoir à lui montrer des milliers d'exemples de comment faire. C'est le défi du "zéro-shot" (zéro exemple).

Les chercheurs de Northwestern et Stanford ont créé une méthode appelée EmboAlign. Pour comprendre comment ça marche, utilisons une analogie simple : la collaboration entre un rêveur et un architecte.

1. Le Problème : Le Rêveur (Le Modèle Vidéo)

Imaginez un Rêveur très créatif (c'est le Modèle de Génération Vidéo ou VGM). Ce rêveur a vu des milliards de vidéos sur internet. Si vous lui dites "empile le cube vert sur le rouge", il peut imaginer une séquence vidéo magnifique et fluide de l'action.

Mais il y a un hic : Le rêveur est un peu distrait et parfois il fait des choses impossibles dans la réalité.

Il peut faire passer un cube à travers un autre (comme un fantôme).
Il peut faire disparaître un objet en cours de route.
Il peut faire bouger les objets de manière physiquement bizarre.

Si vous donnez simplement ce rêve au robot, le robot va essayer de l'imiter et va probablement se cogner, rater sa prise ou casser quelque chose, car le rêve n'est pas toujours réaliste.

2. La Solution : L'Architecte (Le Modèle Vision-Langage)

C'est là qu'intervient EmboAlign. Il ajoute un Architecte très rigoureux (c'est le Modèle Vision-Langage ou VLM) à l'équipe.

L'Architecte ne rêve pas, il analyse. Il lit la consigne ("empile le cube") et génère une liste de règles strictes (des contraintes) que l'action doit respecter pour réussir :

Règle 1 : Le cube rouge ne doit pas bouger.
Règle 2 : Le cube vert doit être posé exactement au-dessus, pas sur le côté.
Règle 3 : Aucun objet ne doit disparaître ou se déformer.

3. Le Processus : Comment EmboAlign fonctionne en deux étapes

EmboAlign utilise l'Architecte pour corriger le Rêveur en deux temps :

Étape A : Le Tri des Rêves (Sélection guidée)

Le Rêveur imagine 100 versions différentes de l'action (100 vidéos).

L'Architecte regarde chaque vidéo et dit : "Non, celle-ci fait disparaître le cube, c'est nul." "Non, celle-ci fait traverser les murs, c'est nul."
Il ne garde que les vidéos qui respectent toutes ses règles physiques. C'est comme un filtre qui élimine les rêves impossibles avant même que le robot ne bouge.

Étape B : La Correction de la Trajectoire (Optimisation)

Même avec la meilleure vidéo sélectionnée, il y a un problème technique : convertir une vidéo (des pixels qui bougent) en mouvements de bras robotique est difficile et imprécis (comme essayer de copier un dessin en 3D avec des erreurs de mesure).

Le robot prend la vidéo sélectionnée comme brouillon.
L'Architecte intervient à nouveau pour réparer les erreurs de ce brouillon. Il ajuste le mouvement du robot en temps réel pour s'assurer que, même si la vidéo était un peu floue, le robot respecte parfaitement les règles (ne pas toucher l'obstacle, bien aligner les cubes).

Pourquoi c'est génial ?

C'est comme si vous aviez un scénariste de cinéma (le Rêveur) qui imagine des scènes d'action spectaculaires, et un ingénieur de sécurité (l'Architecte) qui vérifie que ces scènes sont physiquement possibles et sûres avant de tourner le film.

Sans l'Architecte, le robot suit le scénario et rate tout (25% de réussite).
Sans le Scénariste, l'Architecte essaie de tout calculer de zéro et se perd souvent (21% de réussite).
Avec EmboAlign, ils travaillent ensemble : le Scénariste propose des idées, et l'Architecte les rend réalistes. Résultat : le robot réussit 68% du temps, soit une énorme amélioration, sans avoir besoin d'apprendre spécifiquement chaque tâche.

En résumé, EmboAlign permet aux robots de "rêver" des actions complexes grâce à l'IA, tout en s'assurant que ces rêves respectent les lois de la physique grâce à un système de règles intelligent.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles génératifs vidéo (VGM) pré-entraînés sur de vastes corpus d'internet offrent une base prometteuse pour la manipulation robotique zero-shot (sans réentraînement spécifique). Ils peuvent générer des vidéos de déroulement (rollouts) temporellement cohérentes capturant la dynamique des objets. Cependant, l'utilisation directe de ces modèles pour le contrôle robotique se heurte à deux modes d'échec majeurs :

Hallucinations physiques : Les VGM, entraînés sur des données internet hétérogènes, produisent souvent des scénarios physiquement irréalistes (interpénétration d'objets, mouvements non conservatifs, déformation d'objets) qui ne respectent pas les lois de la physique.
Erreurs de réaffectation (Retargeting) : Convertir le mouvement pixelique d'une vidéo en actions robotiques (via l'estimation de profondeur et le suivi de points clés) introduit des erreurs cumulatives. Ces erreurs peuvent rendre une trajectoire visuellement plausible impossible à exécuter physiquement par un robot.

Le défi central est de combiner la diversité générative des VGM avec la rigueur physique nécessaire à l'exécution robotique, sans nécessiter de données d'entraînement spécifiques à la tâche.

2. Méthodologie : EmboAlign

EmboAlign est un cadre de travail data-free (sans données d'entraînement) qui aligne les sorties des VGM avec des contraintes compositionnelles générées par des modèles vision-langage (VLM) au moment de l'inférence. L'idée centrale est la complémentarité : les VGM fournissent des priors de mouvement riches, tandis que les VLM fournissent un raisonnement spatial structuré pour identifier les contraintes critiques (sécurité, relations spatiales, cinématique).

Le pipeline fonctionne en quatre étapes principales :

A. Génération de Contraintes Compositionnelles

À partir d'une instruction linguistique et d'une observation initiale (RGB-D), un VLM décompose la tâche en un ensemble de contraintes physiques et relationnelles. Ces contraintes sont exprimées comme des fonctions scalaires sur une configuration de points clés 3D ( $k$ ) :

Contraintes d'état final : (ex: "le bloc vert doit être au-dessus du bloc rouge").
Contraintes de processus : (ex: "l'effecteur doit approcher par le haut", "pas de déformation de l'objet").
Représentation : Les objets sont modélisés par des points clés 3D extraits via Segment Anything et un suivi de points (CoTracker).

B. Sélection de Déroulement Guidée par Contraintes

Au lieu d'exécuter le premier déroulement généré, le système :

Échantillonne un lot de $N$ vidéos candidates à partir du VGM.
Évaluation visuelle : Utilise un modèle latent du monde (V-JEPA-2) pour scorer la cohérence temporelle et physique (détection d'artefacts).
Évaluation spatiale : Transforme les points clés 2D de la vidéo en trajectoires 3D (via estimation de profondeur monoculaire) et calcule le coût de violation des contraintes générées par le VLM.
Sélection : Trie les vidéos par plausibilité visuelle, puis sélectionne la première vidéo dont le coût de contrainte spatiale est inférieur à un seuil $\epsilon$ . Cela élimine les vidéos avec des hallucinations physiques avant même l'exécution.

C. Optimisation de Trajectoire Basée sur les Contraintes

La vidéo sélectionnée est convertie en une trajectoire d'effecteur terminal initiale ( $\xi^{(0)}$ ) via une réaffectation conditionnée par la prise (grasp-conditioned retargeting). Cette trajectoire initiale est ensuite affinée par un programme d'optimisation non linéaire :
$\xi^* = \arg \min_{\xi} \sum_{c \in C} \sum_{t} [\max(0, c(k_t))]^2 + \lambda \sum_{t} \|\xi_t - \xi^{(0)}_t\|^2$

Le premier terme pénalise les violations de contraintes (sécurité, géométrie).
Le second terme maintient la fidélité au mouvement généré par la vidéo (prior).
Cette étape corrige les erreurs d'estimation de profondeur et de suivi en temps réel.

3. Contributions Clés

Cadre EmboAlign : Un nouveau framework qui aligne les modèles génératifs vidéo avec les exigences de manipulation via des contraintes compositionnelles, permettant une exécution zero-shot précise et sûre.
Mécanisme d'alignement à deux étapes :
- Sélection guidée par contraintes : Filtre les échantillons VGM physiquement improbables.
- Optimisation de trajectoire : Corrige les erreurs de réaffectation en utilisant les mêmes contraintes comme objectifs d'optimisation.
Validation Expérimentale : Une évaluation rigoureuse sur six tâches de manipulation réelles, démontrant une amélioration significative sans données d'entraînement spécifiques.

4. Résultats Expérimentaux

Les expériences ont été menées sur un robot Dobot Nova2 avec six tâches nécessitant une précision et une sensibilité aux contraintes élevées (ex: empilement de blocs, utilisation d'un agrafeuse, versement d'eau, évitement d'obstacles).

Comparaison avec les baselines :
- ReKep (Méthode basée uniquement sur les contraintes) : 21,7 % de taux de réussite global.
- NovaFlow (Méthode basée uniquement sur la vidéo) : 25,0 % de taux de réussite global.
- EmboAlign (Proposé) : 68,3 % de taux de réussite global.
Améliorations notables :
- Tâche "Presser l'agrafeuse" : Passage de 0/10 (NovaFlow) et 2/10 (ReKep) à 8/10.
- Tâche "Placer le bloc en sécurité" (avec obstacle) : Passage de 4/10 (NovaFlow) et 1/10 (ReKep) à 8/10.
Analyse d'ablation :
- L'ajout de la sélection guidée par contraintes (+Selection) améliore le taux de réussite de 23,3 % (Video-only) à 48,3 %.
- L'ajout de l'optimisation de trajectoire (+Opt) porte le taux final à 68,3 %, prouvant que la combinaison des deux étapes est cruciale.

5. Signification et Conclusion

EmboAlign résout le compromis fondamental entre la diversité générative des modèles de vidéo (qui peuvent imaginer des mouvements complexes) et la précision physique requise par les robots réels.

Synergie VGM/VLM : Le papier démontre que les VLM ne servent pas seulement à comprendre l'image, mais agissent comme un "gardien" (guardrail) sémantique et physique pour filtrer et affiner les sorties des VGM.
Robustesse : En corrigeant les hallucinations au niveau de la planification (sélection de vidéo) et les erreurs d'exécution au niveau du contrôle (optimisation), le système surmonte les limitations des pipelines existants.
Impact : Cette approche ouvre la voie à des systèmes robotiques capables de généraliser à de nouvelles tâches et environnements sans collecte de données coûteuses, en s'appuyant sur la richesse des modèles pré-entraînés sur internet tout en garantissant la sécurité physique.

En résumé, EmboAlign établit un nouveau paradigme où les contraintes compositionnelles dérivées du langage servent de pont essentiel entre la génération vidéo et l'action robotique fiable.