Taming Video Models for 3D and 4D Generation via Zero-Shot Camera Control

本文提出了名为 WorldForge 的无需训练框架,通过步内细化、光流通道解耦及双路径引导策略,在推理阶段实现了对视频生成模型的精确相机控制,从而在无需微调的情况下解决了时空不一致问题并实现了高质量的零样本 3D/4D 生成。

Chenxi Song, Yanming Yang, Tong Zhao, Ruibo Li, Chi Zhang

发布于 2026-03-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 WorldForge 的新工具。简单来说,它是一个能让现有的“视频生成 AI"变得听话、能精准控制镜头的“魔法指挥棒”。

为了让你更容易理解,我们可以把现在的视频生成 AI 想象成一位才华横溢但有点“疯癫”的画家

1. 现状:天才画家的烦恼

这位画家(现有的视频扩散模型)脑子里装满了全世界的知识,画出来的东西非常逼真。但是,如果你让他画“镜头绕着一个人转一圈”,他往往画不好:

  • 不听指挥:你让他往左转,他可能往右转,或者画着画着人变形了。
  • 时空错乱:画到一半,背景里的树突然消失了,或者人的脸变得扭曲。
  • 动景不分:他想让镜头动,结果把画面里的人也跟着“甩”变形了。

以前的解决办法要么是把画家关起来重新训练(微调),这既费钱又容易让他忘了原本的知识;要么是画完后再用软件强行把画面“扭”成你想要的样子(后期修补),但这往往会产生很多奇怪的噪点和裂痕。

2. 解决方案:WorldForge(世界锻造者)

WorldForge 不需要重新训练画家,它是在画家画画的过程中(推理阶段),通过三个巧妙的步骤来“引导”他,让他既听话又画得好。

第一步:步步为营的“纠错 loop" (Intra-Step Recursive Refinement)

  • 比喻:想象画家在画每一笔的时候,你手里拿着一张标准的参考图
  • 做法:在画家刚画完一笔(去噪过程),你立刻把画里“应该看到”的部分(比如参考图里的背景)覆盖上去,告诉画家:“这里必须长这样,不能乱画”。
  • 效果:这就像是一个实时的 GPS 导航,每走一步都纠正一次方向,确保镜头的轨迹(比如绕圈、推拉)严格符合你的要求,不会跑偏。

第二步:给画面“分门别类” (Flow-Gated Latent Fusion)

  • 比喻:画家的画布其实是由很多层“透明胶片”叠起来的。有些胶片专门负责画物体的样子(颜色、纹理),有些胶片专门负责画物体的运动(怎么动、往哪动)。
  • 问题:以前如果强行修改,可能会把“物体的样子”也改坏了,导致人长得像外星人。
  • 做法:WorldForge 会先分析哪层胶片在负责“运动”,哪层在负责“长相”。它只修改负责“运动”的那几层胶片,而把负责“长相”的胶片原封不动地保留下来。
  • 效果:这就像只指挥交通,不指挥汽车的颜色。镜头可以随意旋转、移动,但画面里的人脸、衣服纹理依然清晰自然,不会变形。

第三步:双路并行的“自我修正” (Dual-Path Self-Corrective Guidance)

  • 比喻:想象画家在画画时,脑子里有两个声音:
    1. 自由派声音:“我想怎么画就怎么画,画得最漂亮,但可能不听话。”
    2. 指令派声音:“必须按我说的路线画,但可能画得有点歪歪扭扭。”
  • 做法:WorldForge 让画家同时听这两个声音。它把“指令派”画出的路线,和“自由派”画出的漂亮画面进行对比。如果“指令派”画得太丑(有噪点),它就悄悄把“自由派”的漂亮细节补进去;如果“自由派”跑偏了,就用“指令派”把它拉回来。
  • 效果:这就像是一个高明的编辑,既保留了画面的艺术美感,又确保了镜头运动的精准度,消除了因为强行修改带来的画面瑕疵。

3. 这个工具能干什么?

因为不需要重新训练,WorldForge 就像一个万能插件,可以插在任何现有的视频 AI 模型上:

  • 单图变 3D 视频:给一张照片,让它变成可以 360 度环绕观看的 3D 场景。
  • 视频重拍:给一段视频,告诉 AI“把镜头拉近”或者“绕着主角转”,AI 就能生成全新的视角,而不用重新拍摄。
  • 视频编辑:可以像变魔术一样,把视频里的物体移走、换掉,或者让镜头稳定下来。

总结

WorldForge 就像给那些“才华横溢但有点任性”的视频 AI 画家,配了一位懂艺术又懂指挥的导演。它不需要把画家重新培养一遍,而是通过巧妙的“实时导航”、“分路指挥”和“自我修正”,让 AI 在保持高质量画质的同时,精准地按照你的想法去运镜。

这就意味着,未来我们只需要输入一段文字或一张图片,就能轻松生成好莱坞级别的、镜头运动精准的 3D 和 4D 视频,而且成本更低、速度更快。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →