Strengthening Generative Robot Policies through Predictive World Modeling

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot hebt die een taak moet uitvoeren, zoals een blokje op een andere stapelen of een kledingstuk vouwen. Deze robot is getraind door te kijken naar duizenden voorbeelden van een meester-robot die de taak perfect uitvoert. Dit noemen we "Behavior Cloning" (gedragsnabootsing). De robot heeft de bewegingen uit het hoofd geleerd, net zoals een student die een tekst uit het hoofd leert voor een examen.

Het probleem:
In de klas (of in de simulatie) gaat het goed. Maar zodra de robot de echte wereld in gaat, gaat er iets mis. Misschien ligt het blokje net iets anders, of glijdt het kledingstuk een beetje. Omdat de robot alleen maar "naar achteren" kijkt (naar wat hij heeft geleerd), weet hij niet hoe hij moet reageren op deze kleine fouten. Hij blijft proberen de perfecte beweging uit het hoofd te doen, ook al werkt die niet meer. Het resultaat? De robot struikelt en faalt.

De oplossing: GPC (Generative Predictive Control)
De auteurs van dit paper hebben een slimme truc bedacht om deze robot te helpen zonder hem opnieuw te hoeven leren. Ze noemen het GPC.

Hier is hoe het werkt, vertaald naar een alledaags verhaal:

1. De Robot is een "Dromer" (De Generatieve Politie)

Stel je de getrainde robot voor als een dromer. Als hij een taak ziet, droomt hij direct een paar mogelijke bewegingen in. "Ik zou het blokje hierheen kunnen duwen, of misschien daarheen." Deze dromen zijn gebaseerd op wat hij heeft geleerd. Maar soms zijn de dromen niet perfect.

2. De "Crystal Ball" (De Voorspellende Wereld)

Nu komt het slimme deel. Naast de dromer hebben ze een Crystal Ball (een kristallen bol) toegevoegd. Dit is een "wereldmodel".

Hoe het werkt: Voordat de robot écht iets doet, gebruikt hij de Crystal Ball. Hij zegt: "Oké, als ik dit blokje hierheen duw (mijn droom), wat gebeurt er dan?"
De Crystal Ball simuleert de toekomst. Hij laat de robot zien hoe de wereld eruitziet na die beweging.
Belangrijk detail: Om deze bol goed te laten werken, hebben ze hem niet alleen getraind op perfecte voorbeelden, maar ook op chaos. Ze hebben de robot laten spelen met willekeurige, stomme bewegingen. Hierdoor leert de bol wat er gebeurt als je iets fout doet. Zo kan hij beter voorspellen hoe je een fout kunt herstellen.

3. De Beslissing: Kiezen of Verbeteren

Nu heeft de robot twee manieren om zijn dromen te controleren voordat hij echt handelt:

Optie A: De Jury (GPC-RANK)
De robot droomt 100 verschillende bewegingen. De Crystal Ball simuleert voor elk van die 100 bewegingen wat er gebeurt. Vervolgens kijkt een "jury" (een beloningssysteem) naar die toekomstbeelden en zegt: "Die 100e droom ziet er het meest succesvol uit!" De robot voert dan alleen die ene beweging uit.
- Analogie: Je kiest de beste route op je navigatie-app door te kijken welke route de minste files voorspelt.
Optie B: De Tweedehandschrijver (GPC-OPT)
De robot droomt één beweging. De Crystal Ball zegt: "Niet slecht, maar als je je hand 2 graden meer naar links draait, zou het perfect zijn." De robot past zijn droom dan direct aan, net als een schrijver die een zin herleest en verbetert voordat hij hem opschrijft.
- Analogie: Je schrijft een e-mail, leest hem, en corrigeert de spelling en zinsbouw voordat je op 'verzenden' klikt.

Waarom is dit zo cool?

Geen opnieuw leren: Je hoeft de robot niet opnieuw te trainen. Je plakt er gewoon deze "Crystal Ball" en "Jury" bij. Het is als het geven van een bril aan iemand die al kan lezen, maar nu scherper ziet.
Aanpassing: Als de robot een fout maakt, ziet de Crystal Ball het en helpt hem te corrigeren voordat het te laat is.
Alles werkt: Het werkt zelfs als je geen perfecte meetapparatuur hebt. De robot kan gewoon naar een camera kijken (beelden) en de Crystal Ball voorspellen wat er op de foto te zien zal zijn.

De Kosten

Er is één nadeel: dit kost tijd. Omdat de robot steeds moet "dromen" en die dromen moet "simuleren" in zijn hoofd, duurt het even voordat hij een beslissing neemt. Het is alsof je voor elke stap die je zet, eerst even in gedachten drie stappen vooruit loopt. In de echte wereld betekent dit dat de robot misschien iets langzamer is, maar wel veel slimmer en betrouwbaarder.

Kortom:
GPC maakt van een robot die alleen maar "blind" zijn geleerde bewegingen nabootst, een robot die nadenkt vooruit. Het combineert het beste van twee werelden: de ervaring van het verleden (leren van experts) met de wijsheid van de toekomst (voorspellen wat er gaat gebeuren).

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Inference-Time Enhancement of Generative Robot Policies via Predictive World Modeling" in het Nederlands.

Titel: Inference-Time Enhancement of Generative Robot Policies via Predictive World Modeling

Auteurs: Han Qi, Haocheng Yin, Aris Zhu, Yilun Du, en Heng Yang (Harvard University & Georgia Tech).

1. Het Probleem

Generatieve modellen, zoals Behavior Cloning (BC) met diffusiemodellen, zijn uitgegroeid tot een standaardparadigma voor robotpolicies. Ze leren expertdemonstraties na te bootsen en generaliseren goed binnen de trainingsdistributie. Echter, deze policies zijn vaak kwetsbaar bij implementatie (deployment):

Ze missen mechanismen voor correctie tijdens de uitvoering (test-time).
Kleine afwijkingen van de trainingsdistributie kunnen cumuleren en leiden tot falen.
Traditionele Model Predictive Control (MPC) is robuust door vooruit te kijken (voorspellen van toekomstige toestanden), maar vereist vaak handmatig ontworpen dynamische modellen en is moeilijk te integreren met moderne generatieve policies zonder deze opnieuw te trainen.

De kernvraag van het artikel is: Kunnen we vooraf getrainde, "bevroren" BC-policies verrijken met test-time aanpasbaarheid door MPC-achtige vooruitziendheid toe te voegen via geleerde wereldmodellen, zonder de policy zelf opnieuw te trainen?

2. Methodologie: Generative Predictive Control (GPC)

De auteurs stellen Generative Predictive Control (GPC) voor, een raamwerk dat een bevroren diffusiopolicy combineert met een voorspellend wereldmodel voor online planning. Het systeem bestaat uit drie hoofdblokken:

A. Generatieve Policy Training (De "Generatieve Prior")

Er wordt een standaard diffusiopolicy ( $P(\cdot)$ ) getraind op expertdemonstraties.
Deze policy genereert korte reeksen acties (action chunks) gebaseerd op waarnemingen.
Belangrijk: De policy wordt niet opnieuw getraind of fine-ge-tuned tijdens de inferentie. Hij fungeert als een sterke generatieve prior voor plausibele gedragingen.

B. Voorspellend Wereldmodel (Predictive World Modeling)

Er wordt een wereldmodel ( $W(\cdot)$ ) getraind dat de toekomstige observaties voorspelt gegeven een huidige toestand en een voorgestelde actie.
Architectuur:
- Voor statetoestanden: MLP's.
- Voor visuele taken: Een conditionele video-diffusiemodel. Dit model werkt recursief: het voorspelt één stap vooruit en gebruikt die output als input voor de volgende stap.
Training Data: Het model wordt getraind op zowel expertdata als willekeurige exploratiedata (random exploration). Dit is cruciaal om het model robuust te maken voor situaties die niet in de expertdata voorkomen, waardoor het correctieve voorspellingen kan doen.
Inference: Om stabiliteit te garanderen tijdens optimalisatie, wordt het ruispatroon in het diffusiemodel tijdens de inferentie "bevroren" (vastgezet op 0), waardoor het model deterministisch wordt.

C. Online Planning (Inference-Time Enhancement)

GPC gebruikt het wereldmodel om de acties van de policy te evalueren en te verbeteren via twee strategieën:

GPC-RANK (Ranking):
- De policy genereert $K$ verschillende actievoorstellen.
- Elk voorstel wordt "in gedachten" (via het wereldmodel) doorgelopen om de toekomstige uitkomst te voorspellen.
- Een beloningsmodel ( $R$ ) (kunnen zijn een geleerde NN of een Vision-Language Model) beoordeelt deze uitkomsten.
- Het voorstel met de hoogste verwachte beloning wordt geselecteerd.
- Voordeel: Eenvoudig, paralleliseerbaar, werkt met niet-differentieerbare beloningen (zoals VLM's).
GPC-OPT (Optimization):
- Een enkel actievoorstel van de policy wordt gebruikt als "warm start".
- Dit voorstel wordt verfijnd via gradient-based optimization door het wereldmodel heen om de verwachte beloning te maximaliseren.
- Dit vereist een differentieerbare beloningsfunctie.
- Voordeel: Kan de actie continu verbeteren en gaat verder dan de originele steekproeven.

De twee methoden kunnen gecombineerd worden (GPC-RANK+OPT): eerst $K$ voorstellen genereren, elk optimaliseren, en dan de beste kiezen.

3. Belangrijkste Bijdragen

Modulair Ontwerp: GPC koppel de policy-learning van de wereldmodel-learning. De policy blijft bevroren, wat hergebruik van bestaande modellen mogelijk maakt.
Visuele Wereldmodellen: Het gebruik van diffusiemodellen voor visuele voorspelling (in plaats van latente ruimtes of CNN/LSTM) zorgt voor interpreteerbare en fysiek accurate toekomstvoorspellingen.
Flexibele Beloningsfuncties: Het systeem kan werken met zowel traditionele numerieke beloningen als Vision-Language Models (VLM's) als "zero-shot" beloningsfuncties, wat de toepasbaarheid vergroot.
Nieuwe Inference-Mechanisme: Het introduceren van "frozen-noise" voor stabiele gradient-based optimalisatie in een stochastisch diffusiemodel.

4. Resultaten

De auteurs evalueren GPC op diverse taken in simulatie en op echte hardware:

Simulatie (Staat-gebaseerd): Bij een planaire duw-taak (Push-T) overtreft GPC de pure Behavior Cloning significant. De beste variant (GPC-RANK+OPT) benadert de prestaties van planning met een perfecte (ground truth) simulator.
Simulatie (Visueel): Op vier visuele taken (duwen, driehoek tekenen, blokken stapelen, objecten wisselen) presteert GPC-RANK consistent beter dan de baseline en andere state-of-the-art inference-time methoden zoals LaDi-WM, V-GPS en DreamerV3.
- GPC-RANK+OPT behaalde de hoogste scores (bijv. ~0.882 IoU bij Push-T vs. 0.642 voor BC).
Echte Hardware: GPC werkt succesvol op een echte robotarm voor duw-taken en het vouwen van kleding (een niet-rigide object).
- Zelfs zonder state-sensoren (alleen visie) en met complexe dynamiek, behaalde GPC hoge succespercentages.
Ablatie Studies:
- Het toevoegen van willekeurige exploratie aan de training van het wereldmodel verbeterde de prestaties met ongeveer 10%.
- Het combineren van generatieve priors met planning is essentieel; planning-only methoden zonder generatieve prior faalden bijna volledig op visuele taken.

5. Betekenis en Conclusie

GPC biedt een effectieve "recept" om generatieve robotpolicies robuuster te maken zonder ze opnieuw te hoeven trainen. Door de kracht van generatieve modellen (flexibiliteit, generalisatie) te combineren met de kracht van voorspellende modellen (correctie, vooruitplanning), overwint het de broosheid van standaard Behavior Cloning.

Beperkingen en Toekomst:
De grootste beperking is de rekenkosten tijdens inferentie. Het uitvoeren van diffusirollouts voor planning is duur (ongeveer 90-95% van de rekentijd). Voor real-time toepassingen is verdere optimalisatie nodig, bijvoorbeeld via diffusiedistillatie of snellere solvers.

Samenvattend toont GPC aan dat het mogelijk is om bestaande, geavanceerde robotpolicies "op het moment van gebruik" slimmer en robuuster te maken door ze te koppelen aan een voorspellend wereldmodel.