CamDirector: Towards Long-Term Coherent Video Trajectory Editing

本文提出了 CamDirector 框架,通过混合形变方案聚合全局信息并利用历史引导的自回归扩散模型,有效解决了现有视频轨迹编辑方法在相机控制精度和长程一致性方面的不足,同时发布了 iPhone-PTZ 基准数据集并实现了少参数下的最先进性能。

Zhihao Shi, Kejia Yin, Weilin Wan, Yuhongze Zhou, Yuanhao Yu, Xinxin Zuo, Qiang Sun, Juwei Lu

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你用手机随手拍了一段视频,镜头晃晃悠悠,视角也很普通。现在,你希望这段视频能像好莱坞大片一样,拥有流畅、酷炫的运镜(比如环绕拍摄、推拉镜头),但又不想改变视频里的人和物,甚至还要把镜头转到原本拍不到的地方(比如转到墙后面去)。

这就是这篇论文《CamDirector》想解决的问题:视频轨迹编辑

简单来说,以前的技术就像是一个“笨拙的剪辑师”,要么改不好镜头,要么把画面弄得一团糟。而这篇论文提出了一套全新的“魔法工具箱”,用更少的算力(参数更少),就能做出更棒的效果。

我们可以把这套技术想象成**“一位拥有上帝视角的超级导演”**,他通过两个核心绝招来完成这个任务:

绝招一:混合变形术(Hybrid Warping)—— 把世界分成“动的”和“静的”

以前的方法在处理画面时,往往像是一个**“单眼盲人”**,只能盯着当前这一帧画面看,然后硬生生地把画面“掰”到新的角度。如果镜头转得太大,画面里就会出现很多空白,或者把原本不该出现的物体硬塞进去,导致画面断裂、不连贯。

CamDirector 是怎么做的呢?
它把视频里的世界分成了两类:

  1. 动态区域(动的): 比如走路的人、行驶的车。这部分直接跟着镜头“变形”,保持动作的连贯性。
  2. 静态区域(静的): 比如墙壁、树木、地板。这部分是固定的。

核心比喻:建造一个“世界缓存库”(World Cache)
想象你在玩一个 3D 游戏。以前的方法每次只加载当前屏幕的一小块地图,转个视角就卡住了。
而 CamDirector 会先把整个视频里所有静止的物体(墙壁、地面)像拼积木一样,在后台拼成一个完整的3D 世界模型(这就是“世界缓存库”)。

  • 当镜头转到新角度时,它不需要凭空猜,而是直接从这个完整的 3D 模型里“渲染”出新的视角。
  • 同时,它把动态的人物“贴”在这个新视角上。

效果: 这样生成的画面,不仅完整(没有奇怪的空白),而且非常精准地符合原视频的场景结构,就像你真的拿着摄像机绕着场景走了一圈一样。

绝招二:历史引导的“连环画”生成(History-Guided Autoregressive)—— 记得住前情提要

如果要生成一个很长的视频(比如 10 秒、20 秒),以前的 AI 就像是一个**“失忆症患者”**。它画完第一秒,画第二秒时就把第一秒的内容忘了,导致视频里的人脸忽大忽小,背景忽左忽右,画面闪烁不停。

CamDirector 是怎么做的呢?
它采用了一种**“连环画”**式的生成策略:

  1. 带着记忆画画: 在生成下一段视频时,它会把上一段已经画好的干净画面作为“历史参考”,紧紧抓在手里。
  2. 不断更新的地图: 每画完一段,它就把这段里新“补全”的静态细节(比如之前没拍到的墙角),更新到那个“世界缓存库”里。

效果: 就像一位经验丰富的导演,在拍下一场戏时,会时刻回顾上一场戏的布景和演员位置。这样,无论视频多长,画面都能保持首尾一致,不会出现“变脸”或“穿帮”的情况。

新的考场:iPhone-PTZ 数据集

以前的测试题目太简单了,就像只让赛车手在平直的跑道上开直线。这篇论文觉得不够劲,于是自己造了一个**“魔鬼考场”(iPhone-PTZ 数据集)**:

  • 场景更复杂: 有旋转、推拉、环绕等各种酷炫运镜。
  • 视野更开阔: 以前只能看小范围,现在要能看大场景。
  • 挑战更大: 专门用来测试谁能把普通的手机视频变成电影大片。

总结:为什么它很牛?

  1. 更聪明: 它不是死记硬背,而是真正理解了场景的 3D 结构(通过世界缓存库)。
  2. 更连贯: 它像有记忆一样,保证了长视频从头到尾不崩坏。
  3. 更轻量: 以前的大模型像“大象”,参数巨大;这个新框架像“猎豹”,用更少的参数(20 亿参数,比竞争对手少很多)跑得更快、跳得更高。

一句话总结:
CamDirector 就像给普通的手机视频装上了一个**“智能电影运镜引擎”,它通过“拼好 3D 世界地图”“带着记忆连续作画”**这两招,把随手拍的视频瞬间变成了专业级的电影大片,而且画面清晰、稳定、不穿帮。