World Action Models are Zero-shot Policies

Het artikel introduceert DreamZero, een World Action Model dat op een video-diffusiebackbone is gebaseerd en door het gezamenlijk modelleren van video en acties, superieure generalisatie en cross-embodiment-overdracht biedt ten opzichte van bestaande Vision-Language-Action-modellen, terwijl het real-time gesloten-lusregeling mogelijk maakt.

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

Gepubliceerd 2026-02-19
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

DreamZero: De Robot die Droomt terwijl hij Werkt

Stel je voor dat je een robot wilt leren om een nieuwe taak te doen, zoals een sok vouwen of een ei in een koekenpan bakken. De oude manier was als het geven van een strikte receptboekje: "Pak de sok, til hem op, vouw hem links, vouw hem rechts." Als de sok een beetje anders lag of de robot een andere arm had, raakte hij in de war.

Nieuwe robots (zoals de "VLAs" in de tekst) zijn slimmer. Ze hebben een enorme bibliotheek gelezen en weten wat een "sok" is en wat "vouwen" betekent. Maar ze hebben een groot probleem: ze weten niet hoe het voelt om te bewegen. Ze kunnen het woord "vouwen" begrijpen, maar ze weten niet precies welke spieren ze moeten aanspannen om dat te doen zonder de sok te scheuren.

DreamZero is de nieuwe, slimme oplossing van NVIDIA. Het is een robotgeest die niet alleen leest, maar droomt.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. De Droommachine (Het "World Action Model")

Stel je voor dat je een nieuwe dans wilt leren. Je kunt de instructies lezen ("draai links, spring omhoog"), maar dat helpt niet echt. Wat wel helpt, is dat je je de dans voorstelt in je hoofd. Je ziet in je gedachten hoe je lichaam beweegt, hoe je voeten op de vloer landen en hoe je armen zwaaien.

DreamZero doet precies dit. Het is een robot die droomt terwijl hij werkt.

  • De Oude Robots: Kijken naar een instructie en proberen direct een beweging te maken.
  • DreamZero: Kijkt naar de instructie, droomt eerst een filmpje van hoe de taak eruit zou zien, en doet dan precies wat hij in dat droomfilmpje ziet.

Het model is getraind op duizenden uren van internetvideo's. Het heeft dus al gezien hoe mensen brood bakken, hoe auto's remmen en hoe mensen knopen losmaken. Het heeft een "gevoel" voor de fysieke wereld.

2. Waarom is dit zo krachtig?

Stel je voor dat je een robot wilt leren om een tijger te temmen.

  • De oude robots hebben duizenden uren nodig gehad om te zien hoe een tijger zich beweegt, en ze moeten het dan nog steeds raden.
  • DreamZero heeft al duizenden uren video's van tijgers gezien. Als je zegt "tem de tijger", denkt het: "Ah, ik heb dit gezien in een droom. De tijger springt naar links, ik moet mijn hand snel terugtrekken."

Dit betekent dat DreamZero:

  • Nieuwe taken kan doen zonder training: Je kunt zeggen "maak een knoop los" (iets dat de robot nooit eerder heeft gedaan), en hij gebruikt zijn "droom" om het te bedenken.
  • Nieuwe robots kan worden: Als je de software op een ander robotlichaam zet (bijvoorbeeld van een mens naar een robotarm), kan hij het in 30 minuten leren. Hij kijkt naar de video's van de oude robot en zegt: "Oké, die arm beweegt zo, mijn arm moet dat ook doen."

3. De Snelheid: Van Slak naar Formule 1

Een groot probleem met dit "dromen" is dat het langzaam is. Het dromen van een filmpje duurt normaal gesproken lang. Als een robot 5 seconden moet dromen voordat hij beweegt, is hij te traag voor echte taken.

De onderzoekers hebben een supersnelle motor gebouwd (genaamd DreamZero-Flash).

  • Vroeger: De robot droomde een heel filmpje, stap voor stap, wat 5 seconden duurde.
  • Nu: De robot heeft geleerd om de droom te "versnellen". Hij gebruikt slimme trucs (zoals het onthouden van eerdere beelden en het voorspellen van de volgende stap in één keer).
  • Het resultaat: De robot droomt en beweegt 7 keer per seconde. Dat is snel genoeg om een bal op te vangen of een scherp mes te hanteren zonder te vallen.

4. De "Kopieer"-Truc (Overdracht tussen robots)

Stel je hebt een robot die al jaren in een keuken werkt. Nu krijg je een nieuwe, heel andere robot.

  • Oude methode: Je moet de nieuwe robot maandenlang laten oefenen.
  • DreamZero methode: Je geeft de nieuwe robot gewoon 12 minuten aan video's van de oude robot (of zelfs van een mens). De nieuwe robot kijkt naar die video's, "droomt" mee, en kan daarna direct de taken uitvoeren. Het is alsof je de nieuwe robot een filmpje laat kijken en zegt: "Kijk goed, en doe net zo."

Samenvatting in één zin

DreamZero is een robot die niet alleen luistert naar wat je zegt, maar eerst in zijn hoofd een filmpje maakt van wat er gaat gebeuren, en dan die droom in de echte wereld uitvoert – en dat allemaal zo snel dat hij niet meer traag is, maar juist een meester in het aanleren van nieuwe vaardigheden.

Het is alsof je een robot geeft die niet alleen een boek leest, maar ook een filmregisseur is die de toekomst ziet voordat hij de eerste stap zet.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →