RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder 是首个基于单张图像实现实时物理动作条件视频生成的系统,它通过将物理模拟作为中间桥梁,将连续动作转化为视觉表征,从而在仅需 4 步扩散的情况下实现 13.2 FPS 的生成速度,支持对刚性物体、可变形体、流体及颗粒材料等复杂物理交互的实时模拟。

Wei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你手里拿着一张静止的照片,比如一个放在桌子上的苹果。现在的 AI 视频生成工具(比如 Sora 或 Runway)很擅长根据文字描述让苹果“动起来”,比如“苹果向右滚”。但如果你问它们:“如果我用力推这个苹果,或者用风吹它,或者用机械手抓它,会发生什么?”它们通常会瞎猜,或者让苹果像幽灵一样飘走,完全不符合物理规律。

RealWonder 就是为了解决这个“物理常识缺失”的问题而诞生的。它就像是一个**“拥有物理大脑的实时电影导演”**。

我们可以用三个生动的比喻来理解它是如何工作的:

1. 第一步:给照片“注入灵魂”(3D 重建与材质识别)

当你给 RealWonder 一张照片时,它不会只把它当成平面的像素。

  • 比喻:它像一个3D 建模师,瞬间把照片里的物体“变”成立体的。它不仅能看出哪里是苹果,哪里是桌子,还能通过“看图说话”(利用大语言模型)判断出苹果是硬的(刚性物体),旁边的布是软的(布料),地上的沙子是散的(颗粒物质)。
  • 作用:这就像给演员(物体)穿上了戏服,并告诉导演(系统):苹果很硬,撞了会弹开;布很软,会被风吹皱。

2. 第二步:在脑子里“预演”一遍(物理模拟)

这是 RealWonder 最核心的创新。传统的 AI 是“猜”下一步画面,而 RealWonder 是“算”下一步画面。

  • 比喻:在生成视频之前,RealWonder 会在后台开一个**“虚拟物理实验室”**。
    • 如果你输入“用 5 牛顿的力推苹果”,实验室里的物理引擎会立刻计算出苹果会滚多远、速度多快。
    • 如果你输入“刮大风”,实验室会模拟风怎么吹动窗帘、怎么扬起沙尘。
    • 如果你输入“机械手抓取”,实验室会模拟机械手怎么夹住物体。
  • 关键转化:这个物理实验室不直接输出视频(因为太慢且不好看),它只输出两张“草图”:
    1. 运动流向图(Optical Flow):告诉画面里的每个像素点“该往哪跑,跑多快”。
    2. 粗略预览图(Coarse RGB):告诉画面大概长什么样(比如苹果被推到了桌边)。
  • 作用:这就像导演在开拍前,先画好了分镜草图动作轨迹,确保动作逻辑是符合物理定律的。

3. 第三步:瞬间生成大片(实时视频生成)

有了上面的“草图”和“轨迹”,RealWonder 的 AI 画家开始工作了。

  • 比喻:这就像一位神笔马良。以前画家画画要一笔一笔描(传统的扩散模型需要很多步,很慢),现在 RealWonder 手里拿着物理实验室给的“精准动作指南”,只需要4 笔(4 步去噪)就能画出完美的画面。
  • 结果:它把物理模拟的“骨架”和 AI 绘画的“血肉”完美结合。你看到的不只是苹果在动,而是苹果在动的时候,光影的变化、桌面的反光、甚至苹果滚动时的微小震动,都真实得令人发指。

为什么它很厉害?(核心优势)

  1. 真正的“实时”互动

    • 以前的方法生成几秒钟视频可能需要几分钟。RealWonder 能达到 13.2 帧/秒(FPS)。这意味着你可以像玩游戏一样,实时控制画面:你推一下,它立刻动;你加个风,它立刻飘。没有延迟,就像在和一个真实的虚拟世界互动。
  2. 懂物理,不瞎编

    • 它不是靠“猜”来生成视频,而是靠“算”。所以,如果你让机械手去抓一个气球,气球会瘪;如果去抓一块石头,石头会不动。它不会像其他 AI 那样,让石头像气球一样飘起来。
  3. 万物皆可动

    • 无论是坚硬的桌子、柔软的丝绸、流动的水、还是散落的沙子,它都能模拟。甚至你可以控制重力风力场,或者机器人的机械臂

总结

RealWonder 就像是给 AI 视频生成装上了一套**“物理引擎”**。

  • 以前的 AI 视频生成是:“我觉得苹果应该往那边滚”(基于概率的猜测)。
  • RealWonder 是:“根据牛顿定律,我推了苹果,它应该往那边滚,并且我会把滚动的样子画得栩栩如生”(基于物理的计算 + 艺术渲染)。

这项技术未来可以让 AR/VR 游戏变得无比真实(你扔个东西,它真的会砸坏虚拟花瓶),也能帮助机器人设计师在虚拟世界里测试机械臂的操作,而无需在现实世界中反复试错。