3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

本文提出了 3DiMo 方法,通过联合训练运动编码器与预训练视频生成器,利用多视角监督及渐进式几何引导,实现了能够摆脱显式 3D 模型约束、具备 3D 感知能力的隐式运动控制,从而支持灵活视角下的高质量人类视频生成。

Zhixue Fang, Xu He, Songlin Tang, Haoxian Zhang, Qingfeng Li, Xiaoqiang Liu, Pengfei Wan, Kun Gai

发布于 2026-02-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你手里有一张静止的人物照片,还有一段别人跳舞的视频。你的愿望是:让照片里的人跳出视频里那个人的舞步,而且你还能像导演一样,随意指挥摄像机怎么拍(比如绕着人转圈、拉远镜头、或者从侧面看)。

这篇论文提出的 3DiMo,就是解决这个难题的“魔法导演”。

为了让你更容易理解,我们可以把现有的技术比作两种不同的“笨办法”,再看看 3DiMo 是怎么用“聪明办法”解决的。

1. 以前的“笨办法”:要么太死板,要么太假

  • 方法一:只看“平面影子”(2D 姿态法)

    • 比喻:就像你试图通过观察一个人投在墙上的影子来模仿他的动作。
    • 问题:影子是平面的。如果视频里的人向前跳,影子只是变大了;如果人侧身,影子只是变窄了。以前的 AI 学的是这个“影子”,所以它生成的视频,一旦你让摄像机换个角度(比如转到侧面),AI 就懵了,因为它根本不知道人的身体在三维空间里是怎么转的。生成的视频就像一张贴在墙上的画,怎么转都还是那个角度,没法真正“绕着人拍”。
  • 方法二:强行套“骨架模型”(3D 参数法)

    • 比喻:就像给真人强行套上一个标准的塑料玩具骨架(比如 SMPL 模型),然后让 AI 照着这个骨架动。
    • 问题:这个“塑料骨架”虽然知道是立体的,但它很僵硬且不准。比如,真人跳舞时手可能会碰到腰,但塑料骨架可能会算错,让手穿模或者悬空。更糟糕的是,AI 原本是个很有灵气的“大画家”(预训练的视频生成模型),知道怎么画得逼真,但被这个不准的“塑料骨架”强行指挥后,AI 的灵气就被压制了,画出来的东西虽然结构对了,但动作很假,像机器人。

2. 3DiMo 的“聪明办法”:教 AI 自己“悟”出三维感

3DiMo 的核心思想是:别给 AI 看影子,也别给它套塑料骨架,而是教它自己从视频里“悟”出三维空间的运动规律。

核心魔法一:把动作“压缩”成灵魂(隐式运动编码)

  • 比喻:想象你要把一段复杂的舞蹈教给一个画家。以前的方法是把舞者的每一帧照片都画下来(太繁琐且包含太多无关细节,比如衣服颜色、背景)。
  • 3DiMo 的做法:它发明了一个**“动作翻译官”(运动编码器)。这个翻译官不看衣服颜色,也不管摄像机在哪,它只提取舞蹈的“灵魂”**(即动作的内在逻辑)。
    • 它把视频压缩成一小串**“动作密码”**(Token)。
    • 这串密码里只有“手抬多高”、“腿迈多大”、“身体怎么转”这些核心信息,把“摄像机角度”和“具体长相”都过滤掉了。
    • 效果:因为去掉了“视角”的干扰,AI 拿到这串密码后,就能明白“哦,原来这个动作是向前跳”,而不是“哦,这是从正面看的向前跳”。

核心魔法二:用“多视角”特训(视域丰富的监督)

  • 比喻:如果只让 AI 看正面跳舞的视频,它永远学不会侧面怎么跳。
  • 3DiMo 的做法:他们收集了海量数据,包括:
    1. 普通视频(学动作的多样性)。
    2. 多机位同步视频(比如一个人跳舞,周围有 10 个摄像机同时拍)。这就像让 AI 同时看到正面、侧面、背面,强迫它理解“哦,原来正面看手举高,侧面看手是伸出去的”。
    3. 运镜视频(摄像机围着人转)。
  • 效果:通过这种“全方位特训”,AI 学会了真正的三维空间感。它不再依赖死板的骨架,而是自己理解了人体在空间里是如何运动的。

核心魔法三:先扶后放(辅助几何监督)

  • 比喻:就像教小孩骑自行车。刚开始,你给他装辅助轮(利用不准确的 SMPL 骨架数据作为引导),让他先找到平衡感。等他会骑了,你就慢慢把辅助轮撤掉(在训练后期逐渐减少骨架数据的权重)。
  • 3DiMo 的做法:刚开始训练时,借用一下那个“塑料骨架”给 AI 一点提示,让它别乱跑。随着训练进行,AI 自己从海量视频里学到了真正的规律,AI 就不再需要那个不准的骨架了,完全靠自己的“三维直觉”来生成。

3. 最终效果:像导演一样自由

有了 3DiMo,你不仅能让人物动起来,还能像电影导演一样指挥:

  • 输入:一张照片 + 一段跳舞视频 + 一句指令:“摄像机慢慢绕着女孩转圈,同时慢慢拉远。”
  • 输出:AI 生成的视频里,女孩完美复刻了跳舞动作,而且摄像机真的绕着她转了,背景也在变化,人物始终保持在正确的空间位置,没有任何穿模或视角崩坏

总结

这篇论文就像是在教 AI 从“看平面影子”进化到“拥有空间想象力”。

  • 以前:AI 是个只会临摹平面的画师,或者是个被僵硬骨架控制的木偶。
  • 现在 (3DiMo):AI 变成了一个懂三维空间的导演。它通过提取动作的“灵魂”,结合多角度的“特训”,学会了在三维空间里自由地指挥人物运动,让你能随心所欲地改变拍摄角度,生成既真实又灵活的视频。

这就是为什么它能做到“所见即所得”,让生成的视频既有电影级的质感,又有真正的空间自由度。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →