Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een taak uit te voeren, zoals een kom van de tafel tillen of een handdoek opvouwen. Normaal gesproken moet je die robot duizenden keren die specifieke beweging laten zien, precies zoals jij het doet. Dat is tijdrovend, duur en lastig, vooral als je een heel nieuw type robot hebt.

De onderzoekers van dit paper hebben een slimme oplossing bedacht die we Latent Policy Steering (LPS) noemen. Laten we het uitleggen met een paar alledaagse vergelijkingen.

1. Het probleem: De "Taalbarrière" tussen robots

Stel je voor dat je een chef-kok wilt leren koken.

De oude manier: Je geeft de kok een recept in het Frans. Maar de kok spreekt alleen Nederlands. Je moet het recept opnieuw uitschrijven, woord voor woord, voor elke nieuwe kok die je wilt leren. Dat is wat robots nu doen: elke robot heeft zijn eigen "lichaam" (armen, wielen, vingers) en spreekt zijn eigen "taal" van bewegingen.
Het probleem: Er zijn enorme databases met video's van mensen die koken en robots die bewegen, maar die zijn onbruikbaar omdat de "taal" (de bewegingen) niet overeenkomt met de robot die je nu hebt.

2. De slimme oplossing: Kijken naar de dans, niet naar de danser

De onderzoekers zeggen: "Laten we niet kijken wie de beweging maakt, maar hoe de wereld eruitziet terwijl het gebeurt."

Ze gebruiken iets genaamd Optische Stroom (Optical Flow).

De analogie: Stel je voor dat je naar een dansfeest kijkt. Het maakt niet uit of de danser een mens is, een robot met twee armen, of een robot met één arm. Als ze allemaal een glas water oppakken, zie je op het scherm hetzelfde patroon van beweging: het glas beweegt omhoog, de hand beweegt erheen.
De truc: In plaats van de robot te leren welke motorcommando's hij moet geven (bijv. "draai de schouder 30 graden"), leren ze de robot te kijken naar hoe de beelden veranderen. Dit is een universele taal die elke robot en zelfs mensen begrijpen.

3. De drie stappen van het proces

Stap 1: De "Alleskennende" Vooropleiding (Pretraining)
Stel je een student voor die een wereldreis maakt. Hij ziet duizenden video's van mensen en verschillende robots die dingen doen. Hij leert niet hoe ze het doen, maar hij leert hoe de wereld verandert als iets gebeurt.

In dit paper wordt een Wereldmodel (een soort AI-droommachine) getraind op deze enorme hoeveelheid data. Omdat het model kijkt naar de visuele beweging (optische stroom) en niet naar de specifieke robotarm, kan het dit leren van iedereen. Het wordt een expert in het voorspellen van de toekomst: "Als ik dit zie gebeuren, wat zie ik dan een seconde later?"

Stap 2: De Snelle Bijscholing (Finetuning)
Nu krijg je die "Alleskennende" student een specifieke opdracht: "Leer deze nieuwe robot om de kom te tillen." Je hebt maar een klein beetje data (bijvoorbeeld 30 video's van een mens die dit doet op die specifieke robot).

Omdat de student al weet hoe de wereld werkt, hoeft hij niet van nul te beginnen. Hij past zijn kennis alleen even aan op de "stem" van deze nieuwe robot. Dit gaat razendsnel en met heel weinig data.

Stap 3: De Slimme Coach (Latent Policy Steering)
Dit is het meest creatieve deel. Stel je voor dat de robot een plan maakt om de kom te tillen. Maar wat als hij een foutje maakt?

De Wereldmodel-coach zegt: "Wacht even, als je die beweging doet, zie ik in mijn 'droom' dat de kom straks valt."
De coach heeft een waarde-functie (een soort scorebord) die zegt: "Dit plan is goed, dat plan is slecht."
De robot probeert verschillende plannen in zijn hoofd (in de "latente ruimte" van de AI) en kiest het plan dat de coach als het veiligste en beste beoordeelt.
Het resultaat: De robot maakt minder fouten en leert sneller, omdat hij zijn eigen plannen eerst test in een veilige simulatie voordat hij ze uitvoert.

Waarom is dit zo cool?

Minder data nodig: Normaal heb je honderden uren aan data nodig. Met deze methode werken ze al met 30 tot 50 voorbeelden.
Mensen en robots samen: Je kunt nu data van mensen gebruiken om robots te leren, en data van robot A om robot B te leren. Het maakt niet meer uit welk lichaam de robot heeft.
Realiteit: In echte tests (met een echte robotarm) verbeterde deze methode de prestaties met wel 70% vergeleken met robots die zonder deze slimme coach moesten werken.

Samenvattend

De onderzoekers hebben een manier bedacht om robots te leren door te kijken naar wat er gebeurt (de visuele beweging) in plaats van hoe het gebeurt (de specifieke motorcommando's). Ze trainen een slimme "droommachine" op een enorme hoeveelheid data van iedereen, en gebruiken die machine vervolgens als een coach die de robot helpt de beste beslissingen te nemen, zelfs als hij maar heel weinig voorbeelden heeft om van te leren.

Het is alsof je een robot niet meer leert door duizenden keren hetzelfde commando te herhalen, maar door hem een boek te geven over hoe de wereld werkt, en hem vervolgens te laten oefenen met een slimme trainer die zegt: "Probeer het anders, dat werkt beter!"

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Latent Policy Steering with Embodiment-Agnostic Pretrained World Models" in het Nederlands.

Probleemstelling

De prestaties van geleerde robot visuo-motorische beleidsregels (policies) zijn sterk afhankelijk van de grootte en kwaliteit van de trainingsdataset. Hoewel er steeds meer grote datasets beschikbaar zijn voor robots en mensen, zijn deze vaak moeilijk te benutten vanwege:

Embodiment-gaten: Verschillende robots hebben verschillende kinematica, sensoren en actieruimten.
Mismatch in actieruimten: Data van de ene robot (bijv. een menselijke hand of een ander robotmodel) kan niet direct worden gebruikt om een beleidsregel voor een andere robot te trainen.
Data-efficiëntie: Het verzamelen van expert-demonstraties voor een specifieke robot is tijdrovend. Bestaande methoden zoals Behavior Cloning (BC) vereisen veel data, en grote modellen (zoals VLA's) zijn duur om te finetunen op nieuwe taken met weinig data.

De kernvraag is: Hoe kunnen we bestaande, grote datasets van diverse bronnen (verschillende robots, menselijke video's) effectief gebruiken om een robot te leren met slechts een klein aantal demonstraties op de doel-robot?

Methodologie

De auteurs stellen een tweestapsbenadering voor die bestaat uit het pretrainen van een wereldmodel (World Model - WM) en het daaropvolgende finetunen met "Latent Policy Steering" (LPS).

1. Embodiment-Agnostic Actierepresentatie: Optische Stroom (Optical Flow)

Om de afhankelijkheid van specifieke robot-embodiments te doorbreken, gebruiken de auteurs optische stroom als actierepresentatie.

Inzicht: Hoewel robots fysiek verschillend zijn, creëren ze bij het uitvoeren van dezelfde vaardigheid (bijv. een kopje oppakken) visueel vergelijkbare bewegingspatronen in de beeldruimte.
Implementatie: In plaats van specifieke robotacties (zoals motorposities) te gebruiken, wordt de optische stroom (de beweging van pixels tussen frames) gebruikt als input voor het wereldmodel. Dit wordt gecodeerd door een convolutie-encoder.
Voordeel: Dit maakt het wereldmodel "embodiment-agnostisch", waardoor het kan worden getraind op data van verschillende robots en zelfs menselijke video's, zonder dat de actieruimte exact hoeft te matchen.

2. Pretraining van het Wereldmodel (World Model)

Een beeldgebaseerd wereldmodel (gebaseerd op Dreamer v3) wordt vooraf getraind op een grote, gemengde dataset ( $C$ ) bestaande uit simulatie-data, publieke robot-datasets en menselijke "play"-video's.
Het model leert de dynamica van de omgeving voorspellen op basis van visuele observaties en de gecodeerde optische stroom. Omdat het model dynamica leert in plaats van direct een beleidsregel, is het zeer sample-efficiënt.

3. Finetuning op de Doel-Embodiment

Voor een specifieke doelrobot wordt een kleine dataset ( $E$ ) met expert-demonstraties verzameld.

Actie-uitwisseling: De optische stroom-encoder in het wereldmodel wordt vervangen door de genormaliseerde robotacties van de doel-robot.
Finetuning: Het wereldmodel wordt verder getraind op de kleine doel-dataset om de voorspellingen af te stemmen op de specifieke dynamica van de doel-robot.
Base Policy: Een basisbeleidsregel (bijv. een diffusiemodel) wordt getraind op dezelfde doel-dataset.

4. Latent Policy Steering (LPS)

Tijdens inferentie wordt de basisbeleidsregel niet direct uitgevoerd. In plaats daarvan gebruikt LPS het gefinetunte wereldmodel en een robuste waardenfunctie (value function) om de beste actie te selecteren:

Plan Evaluatie: De basisbeleidsregel genereert meerdere kandidaat-actieplannen.
Simulatie in Latente Ruimte: Het wereldmodel simuleert de toekomstige toestanden voor elk plan in de latente ruimte.
Robuste Waardenfunctie: De auteurs trainen een waardenfunctie die niet alleen kijkt naar de expert-data, maar ook naar toestanden die de beleidsregel waarschijnlijk zal bezoeken tijdens inferentie (via simulatie).
- Deze functie straft afwijkingen van de expert-verdeling af (om "distribution shift" te voorkomen).
- Het selecteert het plan met de hoogste verwachte beloning (waarde) dat dicht bij de expert-distributie blijft.
Executie: Het beste plan wordt uitgevoerd, waarna het proces wordt herhaald (replanning).

Belangrijkste Bijdragen

Optische Stroom als Actie: Het introduceren van optische stroom als een universele, embodiment-agnostische actierepresentatie die het pretrainen van wereldmodellen over diverse robots en mensen mogelijk maakt.
Latent Policy Steering (LPS): Een nieuwe methode die een robuuste waardenfunctie leert in de latente ruimte van het wereldmodel. Deze functie corrigeert de beleidsregel tijdens inferentie om te voorkomen dat de robot uit de expert-distributie raakt, zelfs met weinig trainingsdata.
Empirische Validatie: Het aantonen dat het pretrainen van een embodiment-agnostisch wereldmodel op grote, gemengde datasets de prestaties van robots in low-data scenario's significant verbetert, zowel in simulatie als in de echte wereld.

Resultaten

De methode is getest op de Robomimic-benchmarks (simulatie) en in echte wereldexperimenten met een Franka-robot.

Echte Wereld Experimenten:
- LPS verbeterde de prestaties van een basis-behavior-cloning-beleidsregel met 70% relatieve verbetering bij 30-50 demonstraties.
- Bij 60-100 demonstraties was de verbetering 44%.
- Vergelijking met HPT (een bestaande embodiment-afhankelijke pretrain-methode): HPT presteerde slecht bij weinig finetuning-data, terwijl LPS door de embodiment-agnostische pretraining veel beter generaliseerde.
Simulatie (Robomimic):
- LPS met pretraining verbeterde de prestaties met gemiddeld 10,6% over vier taken (inclusief complexe taken zoals "Transport" met twee armen).
- Het gebruik van menselijke video-data ("play") bleek verrassend effectief, waarschijnlijk vanwege de hoge diversiteit en kwaliteit van de menselijke vaardigheden.
- Ablatie-studies:
  - Het gebruik van optische stroom tijdens pretraining gaf betere resultaten dan het gebruik van end-effector posities (EEF), vooral bij meer verschillende robots.
  - De robuste waardenfunctie (die zowel expert-data als gesimuleerde afwijkende data gebruikt) was cruciaal; varianten zonder deze straffing presteerden slechter dan de basisbeleidsregel.

Betekenis en Conclusie

Dit paper biedt een krachtige oplossing voor het "data-probleem" in robotica. Door optische stroom te gebruiken als brug tussen verschillende robot-embodiments, kunnen onderzoekers goedkope of bestaande datasets (inclusief menselijke video's) gebruiken om wereldmodellen voor te trainen.

De kerninnovatie is dat het wereldmodel niet direct een beleidsregel wordt, maar dient als een "simulator" om een beleidsregel te sturen via een waardenfunctie. Dit stelt robots in staat om complexe taken te leren met slechts een handvol demonstraties, wat een grote stap is richting generalistische robotica die niet afhankelijk is van duizenden specifieke trainingsuren voor elke nieuwe robot of taak. De methode is vooral effectief bij langere horizon-taken en taken die precisie vereisen, zoals het hanteren van vervormbare objecten of gereedschappen.