Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍的是 NVIDIA 最新推出的**"Cosmos-Predict2.5"和"Cosmos-Transfer2.5"**。
如果把人工智能比作一个正在学习如何在这个物理世界中生存和工作的“超级大脑”,那么这篇论文就是关于如何给这个大脑装上一个**“超级模拟器”和“万能翻译官”**的故事。
简单来说,以前的 AI 学东西主要靠“死记硬背”或者在真实世界里“碰运气”(比如机器人去抓杯子,抓坏了就修,修坏了就换),既慢又危险。而 NVIDIA 这次推出的新模型,能让 AI 在虚拟的电脑世界里,像看电影一样,先预演成千上万次,学会怎么抓杯子、怎么开车、怎么避障,然后再去现实世界操作。
下面我用几个生动的比喻来拆解这篇论文的核心内容:
1. 核心角色:Cosmos-Predict2.5(全能世界模拟器)
想象一下,你有一个**“梦境生成器”**。
- 以前的版本(Cosmos-Predict1): 就像是一个刚学会做梦的孩子,梦里的东西有时候会变形,比如车开起来像果冻,或者文字飘在空中。而且它只能听懂简单的指令,比如“画一只猫”。
- 现在的版本(Cosmos-Predict2.5): 变成了一个**“物理学家 + 电影导演”**的混合体。
- 更懂物理: 它生成的梦里,苹果掉在地上会碎,水会流动,机器人抓东西会受力。它不再只是生成漂亮的图片,而是生成符合物理定律的“世界”。
- 更听话: 以前你让它“让机器人拿苹果”,它可能拿个香蕉。现在它引入了一个叫 Cosmos-Reason1 的“翻译官”,能精准理解你的文字指令,甚至能理解“把红色的苹果放进蓝色的碗里”这种复杂逻辑。
- 全能模式: 它现在是一个“三合一”模型。你可以给它一段文字(Text2World),或者一张图(Image2World),或者一段视频(Video2World),它都能接着往下生成。就像你给它一个开头,它就能把整部电影演完。
它是怎么练成的?
NVIDIA 给它看了2 亿个精心挑选的视频片段(从 200 亿个原始视频里挑出来的)。这就像让一个学生读了图书馆里最精华的 2 亿页书,而且老师(过滤系统)非常严格,只留下最清晰、最符合逻辑的内容。最后,还通过一种叫“强化学习”的方法,让 AI 自己给自己打分,不断修正,直到生成的视频完美无缺。
2. 得力助手:Cosmos-Transfer2.5(现实与虚拟的翻译官)
如果说 Cosmos-Predict2.5 是负责“做梦”的,那 Cosmos-Transfer2.5 就是负责**“把梦变成现实,或者把现实变成梦”**的翻译官。
- 它的作用: 它像一个**“特效化妆师”**。
- 场景一(Sim2Real): 假设你在电脑游戏(模拟器)里训练机器人,游戏里的画面太假了(像卡通片)。这个模型能把游戏画面瞬间“翻译”成逼真的现实照片,让机器人觉得“哦,这就是真实世界”,从而更好地学习。
- 场景二(Real2Real): 假设你有一段模糊的、或者只有轮廓的监控视频,它能把它“翻译”成高清、细节丰富的视频,甚至补全被遮挡的部分。
- 厉害之处: 以前的版本像个笨重的大象(70 亿参数),现在的版本像只灵活的猎豹(20 亿参数),体积小了 3.5 倍,但跑得更快、更准。它能生成很长的视频,而且不会像以前的模型那样,视频播到后面就“崩坏”或“幻觉”(比如车突然变成鸟)。
3. 它能做什么?(实际应用)
这篇论文展示了这个“超级模拟器”在三个领域的魔法:
4. 总结:为什么这很重要?
这篇论文的核心思想是:“在硅片(芯片)上先练好,再去现实世界干活。”
NVIDIA 把这两个模型(Predict2.5 和 Transfer2.5)的源代码和训练好的模型全部开源了。这就像把“超级模拟器”的图纸和核心引擎免费发给了全世界。
- 以前: 只有大公司花得起钱建模拟器,小团队只能望洋兴叹。
- 现在: 任何研究者、学生甚至创业者,都可以下载这些模型,在自己的电脑上构建物理世界的模拟器,训练机器人、开发自动驾驶,或者创造新的 AI 应用。
一句话总结:
NVIDIA 这次不仅造出了一个能生成“物理真实感”视频的超级 AI,还把它变成了一个开源的“世界模拟器平台”,让全世界的开发者都能利用它,加速机器人和自动驾驶从“实验室”走向“现实世界”的进程。
Each language version is independently generated for its own context, not a direct translation.
论文技术总结:基于视频基础模型的物理 AI 世界模拟 (World Simulation with Video Foundation Models for Physical AI)
这篇由 NVIDIA 发布的论文介绍了 Cosmos-Predict2.5 和 Cosmos-Transfer2.5,这是专为物理 AI (Physical AI) 设计的最新一代世界基础模型。物理 AI 指配备传感器和执行器的具身智能体(如机器人、自动驾驶汽车),它们通过与物理环境交互来执行任务。
1. 问题背景 (Problem)
训练物理 AI 系统直接在现实世界中进行往往缓慢、昂贵且充满风险,特别是在早期阶段,系统缺陷可能导致不安全操作,损坏代理或环境。
- 核心痛点:缺乏能够生成高质量、多样化且符合物理规律视觉环境的世界模拟器,作为现实世界的“安全代理”。
- 现有局限:之前的模型(如 Cosmos-Predict1)在视频质量、指令对齐度、长视频生成的稳定性以及对特定物理领域(如机器人操作、自动驾驶)的适应性上仍有不足。此外,现有的视频生成模型大多针对通用内容创作,缺乏对物理一致性、细粒度控制和多视角生成的精确支持。
2. 方法论 (Methodology)
2.1 数据构建 (Data)
- 大规模视频清洗流水线:处理了超过 2 亿 个精选视频片段(源自 3500 万小时的原始视频)。流水线包括:镜头感知分割、GPU 加速转码、多阶段过滤(美学评分、运动滤波、OCR 去重、感知质量、语义伪影、VLM 过滤)和语义去重。
- 领域特定数据:针对机器人、自动驾驶、智能空间、人类动态和物理现象五个领域进行了专门的数据收集和标注。
- 机器人:包含多视角(如 AgiBot, Bridge, DROID 等数据集),强调动作和物体交互。
- 自动驾驶:310 万条 7 相机同步视频,覆盖多种天气、路况和交通场景。
- 物理:专门构建包含经典力学和流体力学现象的数据集,强调物理合理性。
- 高质量标注:使用 Qwen2.5-VL 生成多长度、上下文感知的描述性字幕,并引入结构化分类。
2.2 模型架构 (Architecture)
- 核心架构:基于 Flow Matching (流匹配) 训练,替代了之前的扩散模型(EDM)。Flow Matching 通过预测扩散轨迹的速度场,提供了更直接的训练目标,优化更平滑,样本质量更高。
- 统一模型:将 Text2World(文本生成世界)、Image2World(图像生成世界)和 Video2World(视频生成世界)统一在一个模型中。
- 文本编码器升级:用 Cosmos-Reason1(专为物理 AI 优化的视觉 - 语言模型)替换了 T5 编码器。它通过拼接多个 Transformer 块的激活值来生成更丰富的文本表示,支持更细粒度的世界控制。
- 位置编码:移除了绝对位置编码,仅保留相对位置编码(RoPE),以增强模型对高分辨率和长序列的泛化能力。
- 多模态输入:支持文本、图像、视频作为条件输入,并引入了帧替换策略(Frame-replacement)以增强时间一致性。
2.3 训练策略 (Training)
采用渐进式训练策略:
- 预训练 (Pre-training):多阶段训练,从 256p 到 720p,任务从 Text2Image 扩展到 Video2World。引入了针对高噪声区域的采样策略以减少帧间过渡伪影。
- 监督微调 (SFT):在特定领域(机器人、驾驶等)的高质量数据集上进行微调,然后使用 模型融合 (Model Merging) 技术(如 Model Soup)将不同领域的专家模型合并为一个通用模型,兼顾专业性和通用性。
- 强化学习 (RL):引入基于 VLM 的奖励模型(VideoAlign),通过 GRPO 算法对合并后的模型进行后训练,优化文本对齐、运动质量和视觉质量。
- 蒸馏 (Distillation):使用混合前向 - 反向联合蒸馏框架(rCM),将推理步数从数十步减少到 4 步,大幅提升推理速度。
2.4 Cosmos-Transfer2.5 (控制网络)
- 作为 Cosmos-Predict2.5 的扩展,这是一个 ControlNet 风格 的框架,用于 Sim2Real 和 Real2Real 转换。
- 控制条件:支持边缘图、模糊视频、分割图、深度图等多种空间控制输入。
- 架构改进:将控制块均匀分布在主网络中(每 7 个块插入一个),而非集中在开头,使条件信息更渐进地融入网络。
- 多视角生成:支持基于世界场景地图(World Scenario Map)的自动驾驶多视角生成,以及基于相机轨迹的机器人多视角同步生成。
3. 关键贡献 (Key Contributions)
Cosmos-Predict2.5 系列:
- 发布了 2B 和 14B 两个规模的模型,实现了 Text/Image/Video 到 World 的统一生成。
- 通过 Flow Matching 和 Cosmos-Reason1 编码器,显著提升了视频质量和指令遵循能力。
- 在 PAI-Bench 基准测试中,2B 模型在图像到世界(I2W)任务上超越了更大的 Wan2.2 5B 模型,14B 模型在人类偏好测试中与 Wan 2.2 27B 模型表现相当。
Cosmos-Transfer2.5 系列:
- 体积仅为前代(Transfer1-7B)的 1/3.5,但在控制对齐度、视频质量和长视频生成的误差累积控制上表现更优。
- 实现了长视频生成中的低误差累积(通过 RNDS 指标验证)。
领域应用突破:
- 机器人策略学习:利用 Transfer2.5 进行视觉数据增强(改变物体颜色、背景、光照),显著提升了机器人策略在未见场景下的泛化能力(成功率从 16% 提升至 80%)。
- 自动驾驶模拟:基于 HD 地图和动态物体框生成多视角一致的视频,检测指标(如 LET-AP)提升了 60%。
- VLA 训练数据生成:为视觉 - 语言 - 动作(VLA)模型生成高质量的合成训练数据,提升了指令遵循能力。
- 动作条件生成:支持基于机器人动作序列预测未来视频帧,用于策略评估。
4. 实验结果 (Results)
基准测试 (PAI-Bench):
- Text2World (T2W):Cosmos-Predict2.5-14B 后训练模型在整体得分上达到 0.768,与 Wan2.2-27B 相当。
- Image2World (I2W):Cosmos-Predict2.5-2B 后训练模型在人类偏好投票中优于 Wan2.2-5B,且与 Wan2.1-14B 持平。
- Transfer 任务:Cosmos-Transfer2.5-2B 在控制对齐度(Alignment)和整体质量(Quality Score)上全面超越 Transfer1-7B,尽管参数量更小。
机器人实验:
- 在 10 种未见过的测试场景(如改变物体颜色、添加干扰物、改变背景)中,使用 Transfer2.5 增强数据的策略成功率达到 24/30 (80%),而基线策略仅为 5/30。
自动驾驶实验:
- 在多视角生成任务中,Transfer2.5 的 3D 物体检测(Cuboids)和车道检测(Lanes)指标相比前代提升了约 60%,且多视角一致性(Sampson Error)更优。
效率:
- 通过蒸馏技术,推理步数减少至 4 步,同时保持了与教师模型相当的质量。
- 在 4096 张 H100 GPU 上训练,MFU(模型浮点运算利用率)达到 33%-36%。
5. 意义与影响 (Significance)
- 物理 AI 的加速器:该工作为物理 AI 提供了一个强大的“仿真优先”生态系统,使得在硅片上训练感知和控制技能成为可能,降低了现实世界部署的风险和成本。
- 开源生态:NVIDIA 开源了源代码、预训练检查点和基准测试,极大地降低了物理 AI 研究的门槛,促进了社区创新。
- 技术范式转移:展示了 Flow Matching 结合大语言模型(VLM)编码器在视频生成领域的优越性,以及通过强化学习和模型融合提升特定领域性能的有效性。
- 闭环仿真:支持从 Sim2Real 和 Real2Real 的转换,以及基于动作的闭环仿真,为下一代具身智能的部署奠定了坚实基础。
总结:Cosmos-Predict2.5 和 Transfer2.5 代表了物理 AI 世界模拟领域的重大进步,通过高质量数据、先进架构和强化学习,实现了高保真、可控且高效的视频生成,为机器人和自动驾驶系统的训练与验证提供了关键工具。