Each language version is independently generated for its own context, not a direct translation.

🤖 NovaPlan : Le Chef d'Orchestre qui "Imagine" avant d'Agir

Imaginez que vous demandez à un robot de ranger une pièce très en désordre, de construire une tour de blocs complexe, ou de trouver un objet caché dans un tiroir. C'est ce qu'on appelle une tâche à long terme (long-horizon task).

Jusqu'à présent, les robots avaient du mal avec ça. S'ils tombaient, ils paniquaient. S'ils devaient faire 10 étapes, ils oubliaient la première.

NovaPlan est une nouvelle méthode qui donne au robot une super-pouvoir : l'imagination guidée. Au lieu de simplement exécuter des ordres, le robot "rêve" de la solution avant de bouger.

Voici comment ça marche, étape par étape, avec des analogies simples :

1. Le Scénariste (Le Planificateur Vidéo)

Imaginez que vous devez cuisiner un gâteau très complexe. Avant de toucher à un four, vous imaginez le résultat final.

Ce que fait NovaPlan : Il utilise une intelligence artificielle (un modèle de langage et de vidéo) qui agit comme un scénariste de cinéma.
L'analogie : Quand vous dites au robot "Range les blocs", il ne se lance pas aveuglément. Il génère plusieurs vidéos imaginaires (des scénarios) montrant comment un humain pourrait le faire. Il se dit : "Ok, si je prends le bloc rouge d'abord, ça marche. Si je prends le bleu, ça bloque."
Le choix : Il regarde ces vidéos imaginaires, choisit la meilleure (celle qui respecte la physique, comme la gravité), et la garde comme référence.

2. Le Double de Sécurité (Le Suivi des Mains vs. des Objets)

C'est ici que NovaPlan devient brillant. Parfois, dans les vidéos imaginaires, l'objet est caché par la main, ou la vidéo est un peu floue.

Le problème : Si le robot suit uniquement l'objet dans la vidéo et que l'objet disparaît derrière la main, le robot perd le fil et rate son coup.
La solution NovaPlan : Il utilise une astuce géniale. Il regarde deux choses dans la vidéo imaginaire :
1. Le mouvement de l'objet (ex: le bloc qui glisse).
2. Le mouvement de la main humaine (ex: la main qui pousse).
L'analogie : C'est comme si vous regardiez un match de football. Si le ballon est caché par un joueur, vous ne regardez plus le ballon, vous regardez les jambes du joueur pour deviner où il va. NovaPlan fait pareil : si l'objet est caché, il suit la main. Si la main est floue, il suit l'objet. Il change de stratégie en temps réel pour ne jamais perdre le fil.

3. Le Correcteur d'Erreur (La Boucle de Rétroaction)

C'est la partie la plus importante pour les tâches longues.

Le problème classique : Dans les méthodes anciennes, si le robot glisse au 3ème pas d'une tâche de 10 pas, il continue bêtement et tout le reste est raté.
La solution NovaPlan : Il fonctionne en boucle fermée.
- Le robot fait une action.
- Il regarde ce qui s'est vraiment passé.
- Il compare avec la vidéo imaginaire qu'il avait prévue.
- L'analogie : C'est comme un GPS. Si vous faites une erreur de direction, le GPS ne vous dit pas "Continuez, vous êtes perdu". Il dit : "Attendez, vous avez raté le virage. Recalculons l'itinéraire."
- Si le robot rate une prise, NovaPlan génère une nouvelle vidéo imagée spécifiquement pour réparer l'erreur (par exemple, "poussez le bloc avec le doigt pour le remettre en place") sans avoir besoin de recommencer tout le travail depuis le début.

4. Le Traducteur Géométrique (Du Vidéo au Réel)

Les vidéos imaginaires sont belles, mais elles ne sont pas toujours à la bonne échelle (un bloc peut sembler plus gros que dans la réalité).

La solution : NovaPlan utilise des mathématiques pour "calibrer" la vidéo. Il ajuste la taille de la main et des objets dans la vidéo pour qu'ils correspondent exactement à la taille réelle de la pièce et du robot. C'est comme passer d'un dessin animé à une photo réelle en 3D.

🏆 Pourquoi c'est révolutionnaire ?

Avant, pour apprendre à un robot à faire des tâches complexes, il fallait lui montrer des centaines d'exemples (comme un enfant qui apprend par imitation).

NovaPlan, lui, n'a besoin d'aucun exemple.

C'est du "Zero-Shot" (Zéro coup d'essai).
Vous lui donnez une instruction en langage naturel ("Range ces blocs").
Il imagine la solution, vérifie si c'est physiquement possible, ajuste son plan si ça rate, et exécute.

En résumé

NovaPlan, c'est comme donner à un robot :

Un rêveur qui imagine le futur (la vidéo).
Un stratège qui choisit le meilleur plan.
Un mécanicien qui ajuste les mouvements en suivant les mains si l'objet est caché.
Un réparateur qui sait se remettre sur les rails s'il fait une erreur.

C'est une avancée majeure pour rendre les robots autonomes capables de gérer le chaos du monde réel, sans avoir besoin de milliers d'heures d'entraînement préalable.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : NovaPlan - Manipulation Longue Durée en Zéro-Shot via une Planification Vidéo-Langage en Boucle Fermée

1. Problématique

La manipulation robotique à long horizon (tâches complexes nécessitant de nombreuses étapes séquentielles) pose un défi majeur : intégrer un raisonnement sémantique de haut niveau avec une interaction physique précise de bas niveau.

Les approches existantes souffrent de plusieurs limitations :

Écart d'incarnation (Embodiment Gap) : Les modèles de génération vidéo produisent des mouvements qui ne correspondent pas toujours à la morphologie ou aux contraintes cinématiques du robot réel.
Instabilité temporelle et hallucinations : Les modèles vidéo peuvent générer des incohérences physiques ou des objets qui disparaissent, rendant le suivi sur de longues durées difficile.
Manque de robustesse aux échecs : La plupart des systèmes fonctionnent en boucle ouverte. Si une étape échoue (ex: glissement de préhension, occlusion), le robot ne peut pas se rétablir seul.
Dépendance aux démonstrations : De nombreuses méthodes nécessitent des données d'entraînement spécifiques à la tâche, limitant leur généralisation (zéro-shot).

L'objectif de NovaPlan est de permettre à un robot d'exécuter des tâches complexes de manipulation sans aucune démonstration préalable ni entraînement spécifique, en utilisant des modèles de fondation (VLM et génération vidéo) tout en assurant une exécution physique fiable.

2. Méthodologie : NovaPlan

NovaPlan est un cadre hiérarchique qui unifie la planification vidéo-langage avec une exécution ancrée géométriquement dans une boucle de vérification et de récupération.

A. Planification Vidéo-Langage en Boucle Fermée (Haut Niveau)

Le système utilise un Modèle de Langage-Vision (VLM) comme "arbitre" de haut niveau. Le processus suit une recherche en arbre "Générer puis Vérifier" :

Décomposition de tâche : Le VLM décompose l'instruction globale en sous-objectifs séquentiels.
Génération de Rollouts (Simulations) : Pour chaque sous-objectif, un modèle de génération vidéo (ex: Wan2.2, Veo 3.1) génère plusieurs vidéos candidates simulant l'action.
Évaluation et Sélection : Le VLM évalue ces vidéos selon quatre métriques critiques :
- Cible : L'objet correct est-il manipulé ?
- Physique : Le mouvement respecte-t-il les lois de la physique (gravité, rigidité) ?
- Mouvement : La trajectoire correspond-elle à la commande linguistique ?
- Résultat : L'état final correspond-il au sous-objectif ?
Boucle de Vérification et Récupération : Après chaque étape exécutée, le VLM compare l'état réel du robot avec l'état cible de la vidéo. En cas d'échec, le système déclenche une procédure de récupération autonome (re-planification locale) pour corriger l'erreur sans réinitialiser toute la tâche.

B. Planificateur de Bas Niveau et Flux Hybride

Pour transformer les vidéos générées en commandes robotiques exécutables, NovaPlan utilise un mécanisme de flux hybride qui alterne dynamiquement entre deux sources de données :

Flux d'Objet (Object Flow) :
- Suit les points clés 3D de l'objet cible.
- Utilise la reconstruction de profondeur (MoGe2) et le suivi de points denses (TAPIP3D).
- Converti en trajectoire du bout de l'effecteur via une transformation rigide (supposant que l'objet reste fixe par rapport à la pince).
- Limitation : Devient instable en cas d'occlusion forte par la main ou de rotations rapides.
Flux de Main (Hand Flow) :
- Utilise la pose de la main humaine générée dans la vidéo comme a priori cinématique.
- Extraction de la pose de la main (HaMeR) et calibration géométrique pour corriger les artefacts d'échelle et de dérive projective des vidéos générées.
- Avantage : Très robuste même si l'objet est totalement occlus, car la main reste visible.

Mécanisme de Commutation : Le système choisit dynamiquement entre le flux d'objet et le flux de main en fonction de la stabilité du suivi (lissage de la trajectoire, occlusion). Si la rotation de l'objet dépasse un seuil ou si le suivi d'objet devient bruité, le système bascule vers le flux de main.

C. Calibration Géométrique et Récupération Non-Prenante

Calibration : Une procédure de calibration affine aligne les échelles de la vidéo générée avec le monde réel (en utilisant la profondeur métrique) et compense la dérive projective (le changement d'échelle apparent quand la main s'approche/éloigne de la caméra).
Récupération Non-Prenante : Pour les tâches où un objet est coincé, NovaPlan peut générer des vidéos de correction non-prenante (ex: "pousser l'objet avec le doigt index"). Le système identifie le point de contact sur la vidéo, le marque géométriquement, et génère une trajectoire de pousse précise pour débloquer la situation.

3. Contributions Clés

Architecture de Planification en Boucle Fermée : Intégration d'un VLM pour la vérification et la récupération autonome, permettant de gérer les échecs à l'exécution sans intervention humaine.
Mécanisme de Suivi Hybride (Objet/Main) : Une stratégie dynamique qui utilise la main humaine comme référence cinématique robuste lorsque le suivi d'objet échoue, résolvant le problème d'occlusion.
Calibration Géométrique pour la Vidéo Générée : Une méthode pour ancrer les "mains générées" dans des trajectoires robotiques physiques, corrigeant les incohérences d'échelle et de déformation inhérentes aux modèles de génération vidéo.
Performance Zéro-Shot : Capacité à résoudre des tâches d'assemblage complexes et des benchmarks difficiles (FMB) sans aucune démonstration préalable ni fine-tuning.

4. Résultats Expérimentaux

Les auteurs ont évalué NovaPlan sur trois tâches à long horizon et le Functional Manipulation Benchmark (FMB).

Tâches Longue Durée :
- Empilement de blocs (4 couches) : NovaPlan atteint un taux de réussite de 70% (7/10), surpassant les modèles basés sur le flux d'objet pur (NovaFlow) qui chutent à 30% sur la 4ème couche due à l'instabilité du suivi.
- Tri par couleur : Succès élevé, même avec des ajustements de précision nécessaires pour un bloc jaune serré.
- Recherche d'objet caché : Le système gère la partialité de l'observation en ouvrant les tiroirs séquentiellement.
Benchmark FMB (Assemblage complexe) :
- NovaPlan réussit des tâches d'assemblage multi-étapes avec une précision millimétrique.
- Il démontre une capacité de récupération par "poussée" (non-prehensile) lorsque les pièces sont mal alignées, une capacité que les modèles basés uniquement sur la préhension ne possèdent pas.
Comparaison : NovaPlan surpasse les modèles VLA (comme $\pi^0$ ) et les planificateurs VLM statiques (MOKA), surtout dans la gestion des erreurs et la stabilité d'exécution.

5. Signification et Impact

NovaPlan représente une avancée significative vers la robotique générale (General Purpose Robotics) en zéro-shot.

Combler le fossé Simulation-Réalité : En utilisant la vidéo générée non pas comme une trajectoire statique, mais comme une requête dynamique vérifiée en boucle fermée, le système s'adapte aux réalités physiques.
Robustesse aux Occlusions : L'utilisation de la main humaine comme "ancrage" cinématique est une innovation clé qui permet de maintenir le contrôle même lorsque l'objet cible est invisible.
Évolutivité : L'approche repose sur des modèles de fondation (VLM, Générateurs Vidéo) qui s'améliorent continuellement. NovaPlan offre une voie d'intégration scalable : à mesure que les modèles vidéo deviennent plus réalistes et que les modèles de raisonnement s'améliorent, les capacités de NovaPlan augmenteront naturellement sans nécessiter de réentraînement du robot.

En conclusion, NovaPlan démontre qu'il est possible de réaliser une manipulation robotique complexe et longue durée sans données d'entraînement spécifiques, en combinant l'imagination des modèles génératifs avec une vérification rigoureuse et une exécution géométriquement ancrée.

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning