World Simulation with Video Foundation Models for Physical AI

NVIDIA, :, Arslan Ali, Junjie Bai, Maciej Bala, Yogesh Balaji, Aaron Blakeman, Tiffany Cai, Jiaxin Cao, Tianshi Cao, Elizabeth Cha, Yu-Wei Chao, Prithvijit Chattopadhyay, Mike Chen, Yongxin Chen, Yu Chen, Shuai Cheng, Yin Cui, Jenna Diamond, Yifan Ding, Jiaojiao Fan, Linxi Fan, Liang Feng, Francesco Ferroni, Sanja Fidler, Xiao Fu, Ruiyuan Gao, Yunhao Ge, Jinwei Gu, Aryaman Gupta, Siddharth Gururani, Imad El Hanafi, Ali Hassani, Zekun Hao, Jacob Huffman, Joel Jang, Pooya Jannaty, Jan Kautz, Grace Lam, Xuan Li, Zhaoshuo Li, Maosheng Liao, Chen-Hsuan Lin, Tsung-Yi Lin, Yen-Chen Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Yifan Lu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Seungjun Nah, Yashraj Narang, Abhijeet Panaskar, Lindsey Pavao, Trung Pham, Morteza Ramezanali, Fitsum Reda, Scott Reed, Xuanchi Ren, Haonan Shao, Yue Shen, Stella Shi, Shuran Song, Bartosz Stefaniak, Shangkun Sun, Shitao Tang, Sameena Tasmeen, Lyne Tchapmi, Wei-Cheng Tseng, Jibin Varghese, Andrew Z. Wang, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Jiashu Xu, Dinghao Yang, Xiaodong Yang, Haotian Ye, Seonghyeon Ye, Xiaohui Zeng, Jing Zhang, Qinsheng Zhang, Kaiwen Zheng, Andrew Zhu, Yuke Zhu

发布于 2026-02-26

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍的是 NVIDIA 最新推出的**"Cosmos-Predict2.5"和"Cosmos-Transfer2.5"**。

如果把人工智能比作一个正在学习如何在这个物理世界中生存和工作的“超级大脑”，那么这篇论文就是关于如何给这个大脑装上一个**“超级模拟器”和“万能翻译官”**的故事。

简单来说，以前的 AI 学东西主要靠“死记硬背”或者在真实世界里“碰运气”（比如机器人去抓杯子，抓坏了就修，修坏了就换），既慢又危险。而 NVIDIA 这次推出的新模型，能让 AI 在虚拟的电脑世界里，像看电影一样，先预演成千上万次，学会怎么抓杯子、怎么开车、怎么避障，然后再去现实世界操作。

下面我用几个生动的比喻来拆解这篇论文的核心内容：

1. 核心角色：Cosmos-Predict2.5（全能世界模拟器）

想象一下，你有一个**“梦境生成器”**。

以前的版本（Cosmos-Predict1）： 就像是一个刚学会做梦的孩子，梦里的东西有时候会变形，比如车开起来像果冻，或者文字飘在空中。而且它只能听懂简单的指令，比如“画一只猫”。
现在的版本（Cosmos-Predict2.5）： 变成了一个**“物理学家 + 电影导演”**的混合体。
- 更懂物理： 它生成的梦里，苹果掉在地上会碎，水会流动，机器人抓东西会受力。它不再只是生成漂亮的图片，而是生成符合物理定律的“世界”。
- 更听话： 以前你让它“让机器人拿苹果”，它可能拿个香蕉。现在它引入了一个叫 Cosmos-Reason1 的“翻译官”，能精准理解你的文字指令，甚至能理解“把红色的苹果放进蓝色的碗里”这种复杂逻辑。
- 全能模式： 它现在是一个“三合一”模型。你可以给它一段文字（Text2World），或者一张图（Image2World），或者一段视频（Video2World），它都能接着往下生成。就像你给它一个开头，它就能把整部电影演完。

它是怎么练成的？
NVIDIA 给它看了2 亿个精心挑选的视频片段（从 200 亿个原始视频里挑出来的）。这就像让一个学生读了图书馆里最精华的 2 亿页书，而且老师（过滤系统）非常严格，只留下最清晰、最符合逻辑的内容。最后，还通过一种叫“强化学习”的方法，让 AI 自己给自己打分，不断修正，直到生成的视频完美无缺。

2. 得力助手：Cosmos-Transfer2.5（现实与虚拟的翻译官）

如果说 Cosmos-Predict2.5 是负责“做梦”的，那 Cosmos-Transfer2.5 就是负责**“把梦变成现实，或者把现实变成梦”**的翻译官。

它的作用： 它像一个**“特效化妆师”**。
- 场景一（Sim2Real）： 假设你在电脑游戏（模拟器）里训练机器人，游戏里的画面太假了（像卡通片）。这个模型能把游戏画面瞬间“翻译”成逼真的现实照片，让机器人觉得“哦，这就是真实世界”，从而更好地学习。
- 场景二（Real2Real）： 假设你有一段模糊的、或者只有轮廓的监控视频，它能把它“翻译”成高清、细节丰富的视频，甚至补全被遮挡的部分。
厉害之处： 以前的版本像个笨重的大象（70 亿参数），现在的版本像只灵活的猎豹（20 亿参数），体积小了 3.5 倍，但跑得更快、更准。它能生成很长的视频，而且不会像以前的模型那样，视频播到后面就“崩坏”或“幻觉”（比如车突然变成鸟）。

3. 它能做什么？（实际应用）

这篇论文展示了这个“超级模拟器”在三个领域的魔法：

🤖 机器人学（Robotics）：
- 比喻： 就像给机器人找了个**“平行宇宙”**。
- 应用： 以前训练机器人抓苹果，如果苹果颜色变了，机器人可能就不会抓了。现在，用这个模型生成各种颜色、各种背景、各种光照的“虚拟苹果”视频，让机器人提前练手。结果发现，经过这种“特训”的机器人，到了真实世界，面对没见过的苹果也能抓得稳稳的。
🚗 自动驾驶（Autonomous Driving）：
- 比喻： 给自动驾驶汽车装上了**“预知未来的水晶球”**。
- 应用： 它可以生成各种极端天气（暴雨、大雾）、复杂路况（隧道、急转弯）的多视角视频。最重要的是，它能根据一张“地图草图”（比如画几条线代表车道），生成周围所有 7 个摄像头的实时画面。这让汽车能在虚拟世界里测试“如果前面突然冲出一只狗，我该怎么躲”，而不用真的去撞。
🎥 合成数据工厂（Synthetic Data）：
- 比喻： 一个**“无限素材库”**。
- 应用： 训练 AI 需要海量数据，但现实世界很难收集到所有情况（比如机器人抓一个从未见过的奇怪物体）。这个模型可以根据文字描述，自动生成“机器人抓奇怪物体”的视频，并自动标注动作。这就像给 AI 老师提供了无穷无尽的练习题，让 AI 学得更快、更聪明。

4. 总结：为什么这很重要？

这篇论文的核心思想是：“在硅片（芯片）上先练好，再去现实世界干活。”

NVIDIA 把这两个模型（Predict2.5 和 Transfer2.5）的源代码和训练好的模型全部开源了。这就像把“超级模拟器”的图纸和核心引擎免费发给了全世界。

以前： 只有大公司花得起钱建模拟器，小团队只能望洋兴叹。
现在： 任何研究者、学生甚至创业者，都可以下载这些模型，在自己的电脑上构建物理世界的模拟器，训练机器人、开发自动驾驶，或者创造新的 AI 应用。

一句话总结：
NVIDIA 这次不仅造出了一个能生成“物理真实感”视频的超级 AI，还把它变成了一个开源的“世界模拟器平台”，让全世界的开发者都能利用它，加速机器人和自动驾驶从“实验室”走向“现实世界”的进程。

World Simulation with Video Foundation Models for Physical AI

1. 核心角色：Cosmos-Predict2.5（全能世界模拟器）

2. 得力助手：Cosmos-Transfer2.5（现实与虚拟的翻译官）

3. 它能做什么？（实际应用）

4. 总结：为什么这很重要？

论文技术总结：基于视频基础模型的物理 AI 世界模拟 (World Simulation with Video Foundation Models for Physical AI)

1. 问题背景 (Problem)

2. 方法论 (Methodology)

2.1 数据构建 (Data)

2.2 模型架构 (Architecture)

2.3 训练策略 (Training)

2.4 Cosmos-Transfer2.5 (控制网络)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

World Simulation with Video Foundation Models for Physical AI

1. 核心角色：Cosmos-Predict2.5（全能世界模拟器）

2. 得力助手：Cosmos-Transfer2.5（现实与虚拟的翻译官）

3. 它能做什么？（实际应用）

4. 总结：为什么这很重要？

论文技术总结：基于视频基础模型的物理 AI 世界模拟 (World Simulation with Video Foundation Models for Physical AI)

1. 问题背景 (Problem)

2. 方法论 (Methodology)

2.1 数据构建 (Data)

2.2 模型架构 (Architecture)

2.3 训练策略 (Training)

2.4 Cosmos-Transfer2.5 (控制网络)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction