Vid2World: Crafting Video Diffusion Models to Interactive World Models

本文提出了 Vid2World 框架,通过系统性地重塑预训练视频扩散模型的架构与训练目标并引入因果动作引导机制,成功将其转化为能够生成高保真、可交互且具备动作可控性的通用世界模型,从而在机器人操作、3D 游戏模拟及开放世界导航等多个领域实现了高效应用。

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Vid2World 的新方法,它的核心目标非常有趣:把原本只会“看视频”的 AI,训练成能“玩世界”的 AI。

为了让你更容易理解,我们可以把这篇论文的内容想象成把一位“电影评论家”培养成一位“电影导演”

1. 背景:为什么我们需要“世界模型”?

想象一下,你正在玩一个电子游戏,或者控制一个机器人。

  • 传统的“世界模型”:就像是一个死记硬背的学生。它只看过很少的、特定的训练视频(比如只看过机器人开门的视频)。当它预测未来时,它只能根据以前见过的死板套路来猜,所以它预测的画面往往很模糊、很粗糙,甚至不符合物理规律(比如机器人穿墙而过)。而且,收集这些带“动作标签”(比如“按下按钮”)的数据非常昂贵且困难。
  • 现有的“视频生成模型”:就像是一位博学的电影评论家(比如 Sora 或 Runway)。它在互联网上看了海量的电影和短视频,所以它非常懂光影、懂物理、懂物体是怎么运动的。但是,它只能“被动”地生成视频,你让它生成什么它就生成什么,它不知道如果你推了桌子一下,桌子会怎么动。它没有“因果”概念,也不懂“如果我做这个动作,世界会变成什么样”。

Vid2World 的野心:能不能把这位“博学的电影评论家”直接改造成一位“懂因果、能互动的导演”?这样我们就不需要重新花大价钱去收集数据了,直接利用它脑子里已有的丰富知识。

2. 核心挑战:两个巨大的障碍

要把“评论家”变成“导演”,论文指出了两个主要难点:

  • 障碍一:时间倒流 vs. 时间向前(因果性问题)

    • 评论家(原模型):看视频时是“上帝视角”,它看第 10 秒的画面时,已经偷偷瞄到了第 20 秒的画面。它知道结局,所以能预测得很准。这叫“双向依赖”。
    • 导演(世界模型):在现实世界中,你只能看到过去,不能看到未来。如果你要预测下一秒,必须严格基于现在和过去,不能偷看未来。
    • 比喻:就像考试时,评论家可以偷看答案(未来),而导演必须只能凭记忆(过去)来解题。如果直接让评论家当导演,它会因为习惯了偷看答案,导致在实时互动中“穿帮”。
  • 障碍二:只会看 vs. 会动手(动作控制问题)

    • 评论家:你给它一个指令“生成一个下雨的视频”,它就能生成。但它不理解“如果我一下杯子,杯子会倒”。它不知道你的具体动作如何改变未来。
    • 导演:必须能理解:“如果我向左转,视野就会变左;如果我开枪,敌人就会倒下”。它需要把“动作”和“未来的画面”紧密绑定。

3. Vid2World 的解决方案:两大魔法

为了解决这两个问题,作者设计了两套“魔法”:

魔法一:时间手术(视频扩散因果化)

  • 怎么做:作者对原模型的“大脑结构”进行了微创手术。
    • 原模型里有一种叫“注意力机制”的东西,让它能同时看过去和未来。作者给这个机制加了一个**“遮光板”(Mask),强迫它只能看过去,不能看未来**。
    • 对于卷积层(处理图像细节的部分),作者发明了一种**“外推权重转移”**的方法。想象一下,原模型的卷积核像是一个对称的透镜,能同时处理左右两边的信息。作者把这个透镜“切掉”右边(未来)的部分,然后聪明地把右边丢失的信息,通过数学推算(线性外推),重新分配到左边(过去)的权重上。
  • 效果:这样,原本能“偷看未来”的评论家,就被强行训练成了只能“基于过去预测未来”的导演,具备了因果性

魔法二:动作导航(因果动作引导)

  • 怎么做:作者教模型如何根据“动作”来调整预测。
    • 在训练时,作者故意随机隐藏一部分动作指令(比如把“向左转”变成空白),让模型学会两种模式:
      1. 有动作时:预测“如果我向左转,世界会怎样”。
      2. 没动作时:预测“如果我不做任何事,世界会怎样(自然演变)”。
    • 在生成视频时,作者利用一种**“引导技术”**(Classifier-free Guidance),把这两种预测结合起来。就像开车时,你一边看路(自然演变),一边打方向盘(动作引导),强行把生成的画面“拉”向你想要的动作结果。
  • 效果:模型现在不仅能预测,还能听指挥。你输入“前进”,它就生成前进的画面;你输入“后退”,它就生成后退的画面,而且画面非常逼真。

4. 实验结果:它真的行吗?

作者把这个方法用在了三个完全不同的领域,效果惊人:

  1. 机器人手臂(RT-1)
    • 让模型预测机器人抓东西、关抽屉。结果发现,Vid2World 预测的画面非常清晰,甚至能用来在电脑里模拟测试机器人的策略(Real2Sim),帮机器人省去了在真实世界里反复试错的成本。
  2. 3D 游戏(CS:GO)
    • 让模型预测第一人称射击游戏的画面。当玩家开枪、转身时,Vid2World 生成的画面非常流畅,没有像以前的模型那样出现画面模糊或崩坏。它甚至能理解“瞄准”这个动作带来的视角变化。
  3. 开放世界导航
    • 让模型预测机器人在复杂环境中行走的画面。即使只给它很少的训练数据,它也能利用互联网上学到的物理常识(比如物体不会穿墙、光影会变化),生成高质量的预测。

5. 总结与意义

Vid2World 的核心贡献在于:
它不需要重新训练一个庞大的 AI,而是**“废物利用”(或者说是“点石成金”),把那些已经在互联网上学习了海量视频知识的预训练视频模型**,通过简单的结构修改和训练技巧,直接变成了强大的互动世界模型

通俗比喻:
以前,我们要教一个机器人理解世界,就像要从零开始教一个婴儿认识物理规律,既慢又贵。
现在,Vid2World 的做法是:直接找一个看过全世界所有电影的大人(预训练模型),告诉他:“别光看电影了,现在你来做导演,记住,你只能根据刚才发生的事来预测下一秒,而且你要根据我的指令(动作)来调整剧情。”
结果发现,这位“大人”稍微点拨一下,就能立刻胜任导演的工作,而且拍出来的片子(预测的未来)既真实又符合逻辑。

这项技术为未来的自动驾驶、机器人控制、游戏开发等领域打开了一扇新的大门,让我们能用更少的数据、更快的速度,构建出更智能的虚拟世界。