LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

该论文针对现有生成式视频世界模型无法模拟“视线外”动态演化的问题,提出了名为 LiveWorld 的新框架,通过引入持久化全局状态和基于监控的机制,实现了物体在未被观测时仍能持续演化并在重访时保持时空一致性的 4D 动态世界模拟。

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 LiveWorld 的新系统,旨在解决当前 AI 生成视频模型中的一个巨大漏洞:“看不见的地方就停止时间”

为了让你轻松理解,我们可以把现在的 AI 视频模型想象成一位**“健忘的摄影师”,而 LiveWorld 则是一位“拥有全知视角的导演”**。

1. 现在的 AI 有什么问题?(健忘的摄影师)

想象一下,你让一位摄影师拍一段视频,视频里有一只狗在吃骨头。

  • 场景 A:摄影师拍到了狗在吃骨头。
  • 场景 B:摄影师把镜头转开,去拍旁边的花。
  • 场景 C:摄影师把镜头转回来,想拍那只狗。

现在的 AI 模型(健忘的摄影师)会怎么做?
它会认为:“既然刚才镜头没对着狗,那狗就定格在上一帧的样子了。”
当你把镜头转回来时,AI 生成的视频里,那只狗依然张着嘴、骨头还在嘴边,仿佛时间完全停止了。它不知道狗其实早就吃完了骨头,甚至可能已经跑掉了。

这就是论文里说的“视而不见的动态缺失”(Out-of-Sight Dynamics)问题。 现有的模型只记得“眼睛看到的东西”,一旦物体离开视野,它的状态就被“冻结”了,无法模拟真实世界中时间的流逝。

2. LiveWorld 是怎么解决的?(全知视角的导演)

LiveWorld 引入了一个全新的概念:把“世界的演变”和“镜头的拍摄”彻底分开。

它不再依赖单一的“摄影师”,而是建立了一个**“世界后台”**,由两部分组成:

🏗️ 第一部分:静态背景(不动的布景)

  • 比喻:就像电影里的固定布景(墙壁、地板、远处的山)。
  • 做法:AI 把这些不动的东西拼成一个 3D 地图。无论镜头怎么动,这些背景永远在那里,不会变。

⏱️ 第二部分:动态实体与“监控员”(会动的演员)

  • 比喻:这是 LiveWorld 最天才的地方。对于会动的东西(比如那只狗、走路的人),AI 会在它们身后悄悄安插一个**“隐形监控员”(Monitor)**。
  • 做法
    1. 当镜头拍不到狗的时候,监控员并没有下班。它会独自快进时间,模拟狗吃完骨头、站起来、跑走的整个过程。
    2. 监控员会一直记录狗的“最新状态”,哪怕狗在镜头外。
    3. 当你把镜头转回来时,渲染器(负责画图的 AI)会立刻去问监控员:“嘿,现在狗在哪?它在干什么?”
    4. 监控员回答:“它刚吃完,正在跑向右边。”
    5. 于是,渲染器画出的视频里,狗就是自然延续之前的动作,而不是突然瞬移回上一帧的样子。

3. 核心创新点总结

  1. 解耦(Decoupling)

    • 以前的模型:世界怎么变 = 镜头怎么拍(两者混在一起,镜头一转,世界就停)。
    • LiveWorld:世界怎么变(后台自动跑) VS 镜头怎么拍(前台只管看)。即使没人看,世界也在自己“演戏”。
  2. 监控员机制(Monitor Mechanism)

    • 就像在后台派了专人盯着每个动态物体。即使你看不见,它们也在“快进”自己的时间线。
  3. LiveBench(新考场)

    • 为了证明这套系统有效,作者还专门设计了一个“考试”(Benchmark)。在这个考试里,AI 必须处理“镜头转走再转回来”的情况,看它能不能记住物体在“看不见”的那段时间里发生了什么。

4. 为什么这很重要?

这就好比从**“看照片”进化到了“活在真实世界”**。

  • 以前的 AI:像是在看一本相册,翻过一页,上一页的内容就定格了,再翻回来还是老样子。
  • LiveWorld:像是活在一个真实的 4D 世界里(3D 空间 + 时间)。即使你闭上眼睛,房间里的猫依然在睡觉、打呼噜,等你睁开眼,猫可能已经换了个姿势。

一句话总结:
LiveWorld 让 AI 明白,“看不见”不等于“不存在”或“时间停止”。通过给每个动态物体安排一个“隐形监控员”在后台自动快进时间,它成功模拟了一个即使你转身不看,世界依然在真实演变的虚拟宇宙。