AnimateScene: Camera-controllable Animation in Any Scene

本文提出了 AnimateScene 框架,通过自动碰撞避免的精准定位、免训练的风格光照对齐以及结合相机轨迹的联合后重建技术,实现了在任意 3D 场景中生成具有高精度几何细节和强时空一致性的相机可控动态动画。

Qingyang Liu, Bingjie Gao, Weiheng Huang, Jun Zhang, Zhongqian Sun, Yang Wei, Fengrui Liu, Zelin Peng, Qianli Ma, Shuai Yang, Zhaohe Liao, Haonan Zhao, Li Niu

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你手里有两张照片:一张是风景照(比如一个公园),另一张是人物照(比如你的朋友在跳舞)。现在的技术难题是:怎么把跳舞的朋友“完美地”放进风景照里,让他看起来就像真的在那里跳舞一样?而且,你还想拿着摄像机围着他们转圈拍摄,让画面动起来,而不是死板的照片。

以前的方法要么让朋友“飘”在空中(没有重力感),要么让朋友和树木“穿模”(身体穿过树干),要么灯光和背景完全不搭(像是在绿幕前拍的)。

这篇论文提出的 AnimateScene,就像是一个超级智能的“电影导演 + 特效师 + 物理学家”三合一团队,专门解决这些麻烦。它的工作流程可以分成三个有趣的步骤:

1. 第一步:给演员“换皮肤”(风格对齐)

比喻:就像给刚进组的演员穿上符合场景的戏服和妆容。

如果背景是夕阳下的金沙滩,而你朋友的照片是在冷冰冰的办公室拍的,直接放上去会非常违和。

  • AnimateScene 的做法:它不会改变你朋友的动作或长相,但会像一位高明的化妆师,自动调整你朋友身上的光线、颜色和质感,让他看起来就像是真的站在夕阳下一样。这样,人和背景就“融为一体”了,不会显得突兀。

2. 第二步:给演员找个“不撞墙”的站位(3D 定位)

比喻:就像在拥挤的房间里给新来的客人找一把刚好能坐下的椅子,还要保证他不会撞到桌子。

这是最难的一步。以前的 AI 只能把图片贴在平面上,不知道哪里是地,哪里是树。

  • AnimateScene 的做法
    • 它先“看”懂风景照的深度(哪里远、哪里近、哪里是地面)。
    • 它计算出一个完美的 3D 坐标,把你朋友“放”在真实的地面上。
    • 关键黑科技:它有一个“防撞雷达”。如果你朋友跳舞时手挥得太高,快要碰到旁边的树了,系统会自动微调他的位置,确保他永远不穿模、不撞墙,就像真的物理世界一样。

3. 第三步:拿着摄像机“绕场跑”(相机控制与修补)

比喻:就像导演拿着摄像机围着演员转圈拍,但每转一圈,原本被挡住的地方(比如树后面的草地)就自动“变”出来了。

当你围着人转圈拍时,原本被树挡住的地面、或者被身体挡住的背景,在照片里是看不见的。

  • AnimateScene 的做法
    • 它把人和背景融合成一个3D 世界
    • 当你移动摄像机视角时,系统会像AI 画家一样,自动把那些原本看不见的“空白区域”(比如树后面的草地)给脑补(Inpainting) 出来。
    • 它填补得非常自然,让你感觉摄像机真的在真实空间里移动,而不是在拼凑图片。

总结:它到底厉害在哪?

简单来说,AnimateScene 让你只需要提供:

  1. 一张风景图
  2. 一张人物图
  3. 一段人物跳舞的视频
  4. 你想怎么运镜(比如绕圈、推近)

它就能生成一段电影级的视频:人物在真实的环境中跳舞,光影完美匹配,走路不会穿模,摄像机想怎么动就怎么动,而且背景里原本看不见的地方也被自动补全了。

一句话概括:它把“把照片 P 进风景”这种粗糙的活儿,升级成了“在虚拟世界里拍一部真人电影”的魔法。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →