World Simulation with Video Foundation Models for Physical AI

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

Gepubliceerd 2026-02-26

📖 5 min leestijd🧠 Diepgaand

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

De Digitale Regisseur: Hoe NVIDIA's Nieuwe AI de Wereld voor Robots Nalat

Stel je voor dat je een robot wilt bouwen die een auto kan besturen of een banaan kan schillen. Het grootste probleem? Je kunt die robot niet zomaar in de echte wereld gooien om te oefenen. Dat is te gevaarlijk (denk aan crashende auto's) en te duur (denk aan kapotte robots).

NVIDIA heeft een oplossing bedacht: Cosmos-Predict2.5 en Cosmos-Transfer2.5. In dit artikel leggen we uit wat dit is, alsof we het uitleggen aan een vriendje over de koffie, met een paar leuke vergelijkingen.

1. De "Droomwereld" voor Robots (Cosmos-Predict2.5)

Stel je een video-game voor, maar dan zo realistisch dat je het niet van de echte wereld kunt onderscheiden. Dat is wat Cosmos-Predict2.5 doet. Het is een enorme "droommachine" die video's kan maken van hoe de wereld eruitziet als er iets gebeurt.

De Oude Versie: De vorige versie (Cosmos-Predict1) was als een beginnende regisseur. Hij kon een film maken, maar soms verdween een auto ineens, liep een robot door een muur, of veranderde de zon plotseling van kleur.
De Nieuwe Versie (2.5): De nieuwe versie is als een Hollywood-regisseur met een magisch script. Hij is getraind op 200 miljoen video's van echte dingen (auto's, robots, mensen, natuur).
- Hoe werkt het? Je geeft de AI een opdracht: "Laat een robot een appel oppakken" of "Laat een auto door een regenachtige stad rijden". De AI "droomt" dan een video die eruitziet alsof het echt gebeurt.
- De Superkracht: Deze AI begrijpt de fysica. Als een bal valt, weet hij dat hij moet stuiteren. Als een auto remt, weet hij dat er bandensporen moeten komen. Hij maakt geen "droom" meer, maar een voorspelling van hoe de echte wereld zich gedraagt.

Waarom is dit cool? Robots kunnen nu "in hun hoofd" oefenen. Ze kunnen duizenden keren een taak proberen in deze digitale droomwereld, fouten maken en leren, zonder dat er ook maar één echte robot of auto beschadigd raakt. Pas als ze perfect zijn in de droom, gaan ze naar de echte wereld.

2. De "Kleurpotlood" voor Bestaande Video's (Cosmos-Transfer2.5)

Als Cosmos-Predict2.5 de regisseur is die een hele nieuwe film bedenkt, dan is Cosmos-Transfer2.5 de magische schilder.

Stel je hebt een saaie, grijze tekening van een straat (zoals een simpele computer-simulatie) of een echte video die er een beetje saai uitziet.

De Oude Versie: De vorige versie kon de tekening wel wat mooier maken, maar soms verloor hij de details of werd het beeld wazig.
De Nieuwe Versie (2.5): Deze is 3,5 keer kleiner (dus sneller en goedkoper) maar veel beter.
- Je kunt een simpele lijntekening van een straat geven, en de AI maakt er een fotorealistische video van.
- Je kunt een video geven en zeggen: "Maak het regenen" of "Verander de auto's in vrachtwagens". De AI past dit toe alsof het echt gebeurt, zonder dat de auto's door de grond zakken.

De Analogie: Het is alsof je een zwart-wit foto hebt en je vraagt aan een kunstenaar: "Maak hier een kleurrijke, 3D-film van". De nieuwe AI doet dit zo snel en nauwkeurig dat je het verschil met de realiteit nauwelijks ziet.

3. Wat kunnen ze allemaal doen? (De Praktijk)

De auteurs laten zien hoe deze tools de wereld veranderen in drie belangrijke gebieden:

Robots die leren werken:
- Stel je een robot voor die een keuken moet opruimen. In de echte wereld is het lastig om elke mogelijke situatie te oefenen (wat als de borden anders staan? Wat als het licht anders is?).
- Met Cosmos kunnen ze duizenden variaties van die keuken genereren. De robot oefent in deze "droomkeukens" en wordt zo slim dat hij de echte keuken aankan, zelfs als er een vreemd object op tafel staat.
Autonome Auto's:
- Auto's moeten leren rijden in sneeuw, regen, en op drukke wegen. Je kunt niet zomaar duizenden auto's in de sneeuw laten crashen om ze te trainen.
- Met deze AI kunnen ze een "virtuele winter" creëren. De auto's rijden in de simulatie duizenden kilometers door de sneeuw, leren hoe ze moeten remmen en sturen, en zijn dan klaar voor de echte winter.
Meerdere Camera's tegelijk:
- Een robot heeft vaak meerdere "ogen" (camera's op zijn hoofd, handen, enz.). Vroeger was het lastig om te voorspellen wat al die camera's tegelijk zouden zien.
- De nieuwe AI kan een video van één camera nemen en er direct drie andere perspectieven bij maken (links, rechts, boven), zodat de robot een perfect 3D-beeld heeft van wat er gebeurt.

4. Waarom is dit zo belangrijk?

Vroeger moesten robots leren door duizenden keren te vallen en te breken in de echte wereld. Dat is traag en gevaarlijk.

Met Cosmos-Predict2.5 en Transfer2.5 heeft NVIDIA een veilige, oneindige oefenplaats gecreëerd.

Het is als een tijdreismachine voor robots: ze kunnen de toekomst "voorspellen" en oefenen voordat het gebeurt.
Het is gratis en veilig: je kunt duizenden auto-ongelukken simuleren zonder dat er ook maar één auto beschadigt.

Conclusie:
NVIDIA heeft de deuren geopend voor iedereen. Ze hebben de code en de modellen gratis beschikbaar gesteld. Dit betekent dat niet alleen grote bedrijven, maar ook onderzoekers en studenten nu deze "droomwereld" kunnen gebruiken om de robots van de toekomst te bouwen. Het is alsof ze de blauwdrukken voor een nieuwe dimensie van intelligentie hebben gedeeld, zodat we allemaal samen kunnen bouwen aan een wereld waar robots en auto's veilig en slim met ons meewerken.

World Simulation with Video Foundation Models for Physical AI

1. De "Droomwereld" voor Robots (Cosmos-Predict2.5)

2. De "Kleurpotlood" voor Bestaande Video's (Cosmos-Transfer2.5)

3. Wat kunnen ze allemaal doen? (De Praktijk)

4. Waarom is dit zo belangrijk?

Titel: Wereldsimulatie met Video Foundation Models voor Physical AI

1. Het Probleem

2. Methodologie

A. Cosmos-Predict2.5 (De Basis Wereldmodel)

B. Cosmos-Transfer2.5 (Controle en Vertaling)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

World Simulation with Video Foundation Models for Physical AI

1. De "Droomwereld" voor Robots (Cosmos-Predict2.5)

2. De "Kleurpotlood" voor Bestaande Video's (Cosmos-Transfer2.5)

3. Wat kunnen ze allemaal doen? (De Praktijk)

4. Waarom is dit zo belangrijk?

Titel: Wereldsimulatie met Video Foundation Models voor Physical AI

1. Het Probleem

2. Methodologie

A. Cosmos-Predict2.5 (De Basis Wereldmodel)

B. Cosmos-Transfer2.5 (Controle en Vertaling)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction