Inference-time Physics Alignment of Video Generative Models with Latent World Models

该论文提出了一种名为 WMReward 的推理时对齐方法,通过利用潜在世界模型(VJEPA-2)作为奖励来引导视频生成轨迹,显著提升了生成视频的物理合理性,并在 ICCV 2025 物理智能挑战赛中以 62.64% 的得分夺得冠军。

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让 AI 生成的视频更符合物理常识的故事。

想象一下,现在的 AI 视频生成模型(比如 Sora 或 MAGI)就像是一个才华横溢但缺乏常识的“超级画家”。它能画出非常漂亮、色彩斑斓的视频,但有时候会犯一些很离谱的错误:比如让球在平地上突然向上飞,或者让两个物体互相穿透而不发生碰撞。虽然画面很美,但违背了我们要的“物理定律”。

这篇论文提出了一种聪明的方法,不需要重新训练这个“画家”,而是在它画画的过程中(推理阶段),给它配了一位**“物理学家导师”**来实时指导。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心问题:画得美,但“不科学”

目前的 AI 视频模型主要是在学习“怎么把像素拼得好看”,而不是“物体在现实中是怎么运动的”。

  • 比喻:这就像让一个从未见过真实世界的画家去画“苹果落地”。他可能画得很美,但苹果可能会像羽毛一样飘,或者穿过桌子。

2. 解决方案:引入“物理学家导师” (WMReward)

作者没有选择让 AI 重新学习物理(这很慢且很难),而是引入了一个已经懂物理的模型,叫做 VJEPA-2(一种“潜在世界模型”)。

  • 比喻
    • AI 画家:正在挥毫泼墨,生成视频的每一帧。
    • 物理学家导师 (VJEPA-2):坐在旁边,手里拿着一个“物理规则手册”。它不看画面的颜色美不美,只看**“这个动作符合物理规律吗?”**
    • WMReward (奖励机制):这是导师给画家的“打分系统”。如果画家画的动作符合物理(比如球落地反弹),导师就给高分(奖励);如果画错了(比如球穿墙),导师就给低分(惩罚/惊讶)。

3. 具体做法:如何“指导”画家?

作者设计了两种主要的方法来利用这位导师:

方法 A:多画几张,挑最好的 (Best-of-N / BoN)

  • 比喻:让画家一次性画 16 张 不同的草图(比如让球以不同的轨迹落地)。然后,让“物理学家导师”快速检查这 16 张图,选出最符合物理规律的那一张作为最终作品。
  • 效果:就像你买彩票,多买几张中奖概率就大。这里就是多生成几个视频片段,挑物理最合理的那个。

方法 B:边画边改 (Guidance / ∇)

  • 比喻:画家在画的过程中,导师会实时在他耳边说:“嘿,这个球往左飞太假了,往右一点!”画家根据这个反馈,实时调整笔触,让轨迹变得更自然。
  • 效果:这是一种更精细的引导,让生成的视频从一开始就朝着“物理正确”的方向走。

终极必杀技:∇ + BoN

  • 比喻:既让导师实时指导画家调整笔触,又让画家多画几张,最后再从中挑出最好的。这是“双重保险”,效果最好。

4. 为什么这个方法很厉害?

  • 不需要重新训练:就像给一个已经毕业的学生请个家教,而不是让他重新上小学。这大大节省了时间和算力。
  • 效果惊人:在著名的 PhysicsIQ(物理智商)测试中,他们的方法让 AI 的得分从之前的水平直接提升到了 62.64%,拿到了第一名,比之前的最好成绩高出了 7 个多百分点。
  • 人类也认可:在人工测试中,人们明显更喜欢这些符合物理规律的视频,觉得它们看起来更真实、更流畅。

5. 总结与意义

这篇论文的核心思想是:与其让 AI 笨拙地重新学习物理,不如在 AI 生成视频时,给它装上一个“物理导航仪”。

  • 以前:AI 闭着眼睛瞎画,偶尔蒙对。
  • 现在:AI 睁着眼睛,旁边有个懂物理的专家实时打分和引导,确保画出来的东西既好看又符合现实世界的逻辑。

这项技术不仅能让 AI 生成的视频更逼真,对于机器人训练(让机器人看懂物理世界)和自动驾驶(预测车辆行为)等需要严格物理逻辑的领域,都有着巨大的应用前景。简单来说,就是让 AI 从“只会画画”进化到了“懂物理的艺术家”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →