World Simulation with Video Foundation Models for Physical AI

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

Pubblicato 2026-02-26

📖 4 min di lettura☕ Lettura da pausa caffè

Vedi su arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Immagina di voler insegnare a un robot come cucinare, guidare un'auto o aiutare in casa. Se provassi a farlo imparando direttamente nel mondo reale, il robot potrebbe rompere cose, farsi male o essere lentissimo. È come se un bambino imparasse a guidare un'auto in mezzo al traffico reale: pericoloso e costoso!

La soluzione? Creare un mondo virtuale perfetto dove il robot può sbagliare all'infinito senza conseguenze. È qui che entrano in gioco Cosmos-Predict2.5 e Cosmos-Transfer2.5, i nuovi "super-attori" creati da NVIDIA.

1. Il Grande Regista: Cosmos-Predict2.5

Pensa a Cosmos-Predict2.5 come a un regista cinematografico magico che non ha mai visto il mondo reale, ma lo ha studiato così tanto da poterlo ricreare perfettamente.

Cosa fa? Se gli dai una descrizione (es: "Un robot che raccoglie una mela su un tavolo rosso"), lui non ti mostra solo un'immagine, ma genera un intero video di ciò che succederà. Se gli dai un video di partenza, può continuare la storia (come un libro che scrive il prossimo capitolo da solo).
Il trucco: Questo regista è stato addestrato guardando 200 milioni di video (dalle strade alle fabbriche, fino ai movimenti umani). Ma non ha solo guardato: ha imparato le "leggi della fisica". Sa che se lasci cadere un bicchiere, si romperà, non volerà via come una piuma.
La novità: Rispetto alla versione precedente, è diventato più intelligente nel capire le istruzioni. Se gli dici "fai finta che piova", il video mostrerà la pioggia in modo realistico, non come un effetto speciale strano. È come se avesse imparato a leggere meglio le sceneggiature.

2. Il Traduttore di Realtà: Cosmos-Transfer2.5

Se il primo modello è il regista, Cosmos-Transfer2.5 è il magico traduttore di stili.

Cosa fa? Prende un video "noioso" (magari un disegno tecnico o una simulazione al computer che sembra di cartone) e lo trasforma in un video iper-realistico, come se fosse stato girato con una camera cinematografica.
L'analogia: Immagina di avere un disegno a matita di una strada. Questo modello prende quel disegno e lo "colora" e lo "anima" rendendolo una strada vera, con le ombre, l'asfalto e le auto che si muovono realisticamente.
Perché è importante? È molto più piccolo e veloce della versione precedente (3,5 volte più piccolo!), ma fa un lavoro migliore. È come passare da un vecchio telefono ingombrante a uno smartphone sottile che fa foto migliori.

3. A cosa servono tutto questi "film"?

Non sono fatti per intrattenerti su TikTok, ma per addestrare robot e auto a guida autonoma. Ecco come:

Il Campo di Addestramento Infinito: Prima di mandare un robot a pulire la tua casa, lo fai allenare in questo mondo virtuale. Il robot prova a prendere un oggetto 10.000 volte, cade, sbaglia, impara, e tutto questo in pochi secondi, senza rompere nulla.
La Prova del Fuoco: I ricercatori usano questi modelli per creare scenari impossibili o pericolosi nel mondo reale. "Cosa succede se un'auto guida sotto la neve mentre c'è nebbia?" Il modello genera il video, e l'auto autonoma impara a reagire prima ancora di vedere la neve vera.
Il "Copia-Incolla" della Realtà: Se un robot deve imparare a fare una cosa, ma non abbiamo abbastanza video reali di quella cosa, il modello ne crea di nuovi, realistici e vari, per insegnare al robot tutto ciò che gli serve.

In sintesi

NVIDIA ha creato due strumenti potenti:

Cosmos-Predict2.5: Il creatore di mondi che immagina il futuro basandosi su ciò che vede e su ciò che gli dici.
Cosmos-Transfer2.5: Il mago che trasforma disegni e simulazioni in realtà fotorealistica.

Insieme, stanno costruendo la palestra digitale dove l'intelligenza artificiale fisica (i robot) imparerà a diventare brava, sicura e pronta a lavorare nel mondo reale con noi. È come dare ai robot un "superpotere" di immaginazione per imparare a vivere con noi.

World Simulation with Video Foundation Models for Physical AI

1. Il Grande Regista: Cosmos-Predict2.5

2. Il Traduttore di Realtà: Cosmos-Transfer2.5

3. A cosa servono tutto questi "film"?

In sintesi

1. Il Problema

2. Metodologia

Architettura e Addestramento di Cosmos-Predict2.5

Cosmos-Transfer2.5

3. Contributi Chiave

4. Risultati

5. Significato e Impatto

World Simulation with Video Foundation Models for Physical AI

1. Il Grande Regista: Cosmos-Predict2.5

2. Il Traduttore di Realtà: Cosmos-Transfer2.5

3. A cosa servono tutto questi "film"?

In sintesi

1. Il Problema

2. Metodologia

Architettura e Addestramento di Cosmos-Predict2.5

Cosmos-Transfer2.5

3. Contributi Chiave

4. Risultati

5. Significato e Impatto

Articoli simili

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction