NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

Each language version is independently generated for its own context, not a direct translation.

NovaPlan: De Robot die Droomt, Controleert en Zich Herpakt

Stel je voor dat je een robot wilt leren om een ingewikkeld puzzelstukje in elkaar te zetten, zoals een legpuzzel of een kast bouwen, maar je hebt nooit aan de robot laten zien hoe het moet. Je geeft alleen een opdracht: "Zet die blokken in elkaar."

Meestal zouden robots hier vastlopen. Ze weten niet hoe ze moeten grijpen, of ze schatten de afstand verkeerd in, en als ze iets laten vallen, weten ze niet hoe ze het moeten oprapen.

NovaPlan is een nieuwe manier om robots slim te maken zonder ze jarenlang te trainen. Het werkt als een slimme regisseur die een film schrijft, die film bekijkt, en dan de robot laat spelen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Droomfabriek (De Video-Planner)

Stel je voor dat de robot een regisseur is die een film moet maken. In plaats van direct met zijn armen te gaan werken, droomt de robot eerst een filmpje na.

Hij denkt: "Oké, ik moet die rode blok pakken en op de blauwe leggen."
De robot genereert dan een video van hoe een menselijk hand dat zou doen.
Dit is niet zomaar een willekeurige video; de robot kijkt er als een strenge filmcriticus naar: "Ziet dit er fysiek mogelijk uit? Valt de blok niet door de tafel? Lijkt het op wat ik wilde?"

Als de video er goed uitziet, is het een plan. Zo niet, dan gooit hij het weg en droomt hij een nieuw filmpje.

2. De Twee Ogen (Hand vs. Voorwerp)

Nu de robot een goed filmpje heeft, moet hij de bewegingen uitvoeren. Hier komt het slimme deel: de robot heeft twee manieren om te kijken naar wat er in het filmpje gebeurt.

Oog 1: Het Voorwerp. De robot kijkt naar de blok die beweegt. Dit werkt goed zolang de blok zichtbaar is.
Oog 2: De Hand. Soms is de blok niet zichtbaar (bijvoorbeeld omdat de hand er overheen gaat, of als de blok ergens achter zit). Dan kijkt de robot naar de hand in het filmpje.

De Creatieve Analogie:
Stel je voor dat je probeert een sleutel in een sleutelgat te steken terwijl iemand anders met een grote hand voor je gezicht staat. Je kunt de sleutel niet zien!

Een slimme robot (NovaPlan) zegt dan: "Ik zie de sleutel niet, maar ik zie de hand die de sleutel vasthoudt. Ik ga de beweging van die hand volgen."
Als de hand weer weg is en de blok weer zichtbaar is, schakelt hij terug naar "Voorwerp-modus".
Dit wisselen tussen "Kijk naar de hand" en "Kijk naar het voorwerp" zorgt ervoor dat de robot nooit de draad kwijtraakt, zelfs niet als er veel obstructies zijn.

3. De "Herstel-Actie" (Als het misgaat)

Dit is misschien wel het coolste deel. Stel je voor dat de robot een blok vastpakt, maar hij laat hem per ongeluk vallen.

Oude robots: Zouden denken: "Ik heb het mis. Ik stop."
NovaPlan: Zegt: "Oké, het is misgegaan. Ik ga nu een nieuw filmpje maken van hoe ik dat blok weer terug in de juiste positie krijg."

De robot kijkt naar de huidige situatie (het gevallen blok) en droomt een korte video van een menselijke hand die het blok zachtjes aanstoot (een 'poke') om het terug te krijgen, in plaats van het opnieuw vast te pakken. Dit noemen ze "non-prehensile recovery" (terugkrijgen zonder vast te grijpen). Het is alsof je een omgevallen potje met je duim weer rechtop duwt in plaats van het hele potje op te tillen.

Waarom is dit belangrijk?

Vroeger moesten robots duizenden keren oefenen met dezelfde taak voordat ze het konden. NovaPlan werkt zonder training (zero-shot).

Het is als een acteur die een script leest en de rol direct perfect speelt, zonder dat hij de scène eerder heeft geoefend.
Het combineert het denken (wat moet ik doen?) met het zien (hoe ziet het eruit in de video?) en het doen (de robotarm bewegen).

Samenvattend:
NovaPlan is een robot die eerst droomt van een oplossing (een video), die droom controleert op realiteit, en die slim schakelt tussen het kijken naar het voorwerp of de hand. Als het misgaat, droomt hij direct een nieuwe manier om het op te lossen. Het is alsof je een robot geeft met een onuitputtelijke fantasie en een onfeilbaar geheugen voor hoe dingen in de echte wereld werken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Robotica staat voor een grote uitdaging bij het oplossen van lange-horizon manipulatietaak (long-horizon tasks), waarbij robots complexe reeksen handelingen moeten uitvoeren zonder specifieke training of demonstraties (zero-shot). Bestaande methoden hebben drie fundamentele beperkingen:

Embodiment Gap: Video-generatiemodellen kunnen fysiek plausibele interacties simuleren, maar vertalen deze vaak niet nauwkeurig naar de specifieke kinematica van een robot, wat leidt tot niet-uitvoerbare acties.
Fragiliteit bij lange duur: Video-modellen lijden aan temporele inconsistenties en hallucinaties, wat de prestaties verslechtert over lange tijdsperiodes.
Gebrek aan sluitende feedback: Veel systemen werken open-loop. Als een robot faalt (bijv. door occlusie, dieptefouten of geometrische vervorming), kan het systeem niet autonoom herstellen of opnieuw plannen.

NovaPlan richt zich op het overbruggen van de kloof tussen hoog-niveau semantisch redeneren en laag-niveau fysieke uitvoering in een gesloten lus (closed-loop) omgeving.

Methodologie: NovaPlan Framework

NovaPlan is een hiërarchisch framework dat drie kerncomponenten combineert: een Vision-Language Model (VLM) planner, een video-generatiemodel, en een hybride uitvoeringslaag.

1. Gesloten-lus Video-Taal Planning (High-Level)

Taakontleding: Een VLM fungeert als een hoog-niveau arbiter. Het analyseert de huidige observatie en de taakopdracht, en deconstrueert deze in een reeks semantische sub-doelen.
Video Rollouts: Voor elke voorgestelde sub-taak genereert het video-model meerdere kandidaat-video's die de fysieke uitkomst simuleren.
Validatie en Selectie: De VLM evalueert deze video's op basis van vier metrieken:
- Doel: Wordt het juiste object gemanipuleerd?
- Fysica: Volgt de interactie de wetten van de fysica (zwaartekracht, rigid body)?
- Beweging: Komt de stroming overeen met de taalopdracht?
- Resultaat: Bereikt de eindtoestand het beoogde sub-doel?
Herplanning en Herstel: Na elke uitvoeringsstap controleert de VLM of de daadwerkelijke staat overeenkomt met de geplande video. Bij een mislukking (bijv. een slip) activeert het een herstelroutine. In plaats van de hele taak opnieuw te plannen, genereert het een lokale correctie (bijv. een "poke" met de vinger) om de scène terug te brengen naar de gewenste toestand.

2. Hybride Flow-mechanisme (Low-Level)

Om de video's om te zetten in robotacties, gebruikt NovaPlan een dynamisch schakelsysteem tussen twee bronnen:

Object Flow: Trackt de 3D-beweging van het object zelf. Dit werkt goed zolang het object zichtbaar is.
Hand Flow: Trackt de 3D-beweging van de menselijke hand in de gegenereerde video.
Schakellogica: Het systeem schakelt automatisch naar Hand Flow wanneer de object-tracking onbetrouwbaar wordt (bijv. bij zware occlusie door de hand of grote rotaties). De hand fungeert als een robuust kinematisch voorspeller.
Geometrische Kalibratie: Een cruciale stap is het "grounden" van de gegenereerde video in de echte wereld. Omdat gegenereerde video's vaak schaal- en dieptefouten hebben, gebruikt NovaPlan een dubbel-anker kalibratie:
1. Contact Onset: Bepalen wanneer de hand het object raakt en de schaal corrigeren zodat de hand fysiek contact maakt met het object in de 3D-ruimte.
2. Drift Compensatie: Correctie voor projectieve drift (verandering in schaal naarmate de hand dichter bij/verder van de camera komt) tijdens de beweging.

3. Niet-greep-herstel (Non-prehensile Recovery)

Voor complexe fouten (bijv. een object dat vastzit) kan het optimalere herstel zijn om het object te duwen in plaats van het vast te pakken. NovaPlan kan dit genereren door specifieke prompts (bijv. "prik met de wijsvinger") te gebruiken en de geometrie van de vingercontactpunten strikt te kalibreren in de gegenereerde video.

Belangrijkste Bijdragen

Gesloten-lus Architectuur: Een uniek framework dat VLM-verificatie en video-generatie integreert voor zero-shot lange-horizon planning met autonoom herstel.
Hybride Tracking: Een dynamisch mechanisme dat schakelt tussen object-flow en hand-flow op basis van de betrouwbaarheid van de video, wat stabiliteit garandeert onder occlusie.
Geometrische Kalibratie: Een methode om "gegenereerde" menselijke handen om te zetten in fysiek uitvoerbare robottrajecten, waardoor schaal- en vervormingsinconsistenties worden opgelost.
Zero-Shot Prestaties: Het systeem lost complexe assemblage- en herstelproblemen op zonder enige voorafgaande training of demonstraties.

Resultaten

Het team evalueerde NovaPlan op drie lange-horizon taken en de Functional Manipulation Benchmark (FMB):

Lange-horizon taken: NovaPlan presteerde aanzienlijk beter dan state-of-the-art zero-shot modellen (zoals $\pi_0.5$ $π_{0} .5$ en MOKA) en de voorganger NovaFlow.
- Bij Block Stacking (vier blokken stapelen) bereikte NovaPlan 70% succes, terwijl NovaFlow daalde naar 30% bij de vierde stap door instabiliteit in object-tracking.
- Bij Hidden Object Search slaagde NovaPlan in 100% van de gevallen door effectief te plannen onder gedeeltelijke observatie.
FMB Benchmark: NovaPlan slaagde erin complexe assemblage-taken met millimeter-nauwkeurigheid uit te voeren en complexe contact-rijke gedragingen (zoals het duwen van vastzittende onderdelen) te ontdekken, terwijl andere VLA/VLM-baselines faalden bij de eerste stap.
Herstelvermogen: Het systeem toonde dexterous foutherstel, waarbij het autonoom besloot om een object te "prikken" of te duwen in plaats van opnieuw te grijpen, wat open-loop systemen niet kunnen.

Betekenis en Impact

NovaPlan markeert een belangrijke stap naar algemene robotica. Het bewijst dat het combineren van generatieve AI (voor het "dromen" van fysieke interacties) met strikte geometrische kalibratie en gesloten-lus verificatie robots in staat stelt om complexe, onvoorspelbare taken in de echte wereld uit te voeren zonder dat er duizenden demonstraties nodig zijn.

De belangrijkste doorbraak is de overgang van statische trajectplanning naar dynamische, adaptieve planning. Door de hand als kinematische prior te gebruiken en fouten direct te corrigeren via gegenereerde video-plannen, overbrugt NovaPlan de kloof tussen abstracte taalplanning en fysieke robotcontrole, wat de weg vrijmaakt voor robuustere en zelfstandigere robots in ongestructureerde omgevingen.

NovaPlan: Zero-Shot Long-Horizon Manipulation via Closed-Loop Video Language Planning

1. De Droomfabriek (De Video-Planner)

2. De Twee Ogen (Hand vs. Voorwerp)

3. De "Herstel-Actie" (Als het misgaat)

Waarom is dit belangrijk?

Probleemstelling

Methodologie: NovaPlan Framework

1. Gesloten-lus Video-Taal Planning (High-Level)

2. Hybride Flow-mechanisme (Low-Level)

3. Niet-greep-herstel (Non-prehensile Recovery)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

IC3-Evolve: Proof-/Witness-Gated Offline LLM-Driven Heuristic Evolution for IC3 Hardware Model Checking

Structural Segmentation of the Minimum Set Cover Problem: Exploiting Universe Decomposability for Metaheuristic Optimization

To Throw a Stone with Six Birds: On Agents and Agenthood

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Toward Full Autonomous Laboratory Instrumentation Control with Large Language Models