Human Video Generation from a Single Image with 3D Pose and View Control

本文提出了 HVG 模型,这是一种能够仅凭单张图像并结合 3D 姿态与视角控制,生成高质量、多视角且时空连贯的 4D 人类视频的潜在视频扩散方法。

Tiantian Wang, Chun-Han Yao, Tao Hu, Mallikarjun Byrasandra Ramalinga Reddy, Ming-Hsuan Yang, Varun Jampani

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 HVG 的新技术,它的核心能力是:只需一张人的照片,就能生成一段高质量、多角度的 3D 人物视频,而且你可以随意控制人物的动作和观看角度。

想象一下,你手里有一张静态的全身照,HVG 就像一位拥有“上帝视角”的超级导演和动画师,能瞬间让照片里的人“活”过来,不仅能跳舞、转身,还能让你围着 TA 转圈看,甚至从背后看,而且衣服褶皱、肢体动作都自然流畅,不会出现“穿模”或肢体扭曲的怪事。

为了让你更直观地理解,我们可以把 HVG 的工作过程比作**“搭建一个完美的 3D 木偶剧场”**:

1. 核心难题:为什么以前的方法不行?

以前的技术(比如 AnimateAnyone 或 Champ)在让照片动起来时,主要面临两个“翻车”现场:

  • 2D 骨架的局限:以前的方法像是一个只懂画火柴人的画家。它知道手在哪里,但不知道手有多粗、胳膊肘怎么弯曲才符合人体结构。一旦人物转身,火柴人的关节就会像断了一样,或者胳膊穿过了身体(穿模)。
  • 3D 模型的僵硬:另一种方法是用一个标准的“人体模型”(像 SMPL 这种)去套。但这就像给真人穿了一件紧身且没有弹性的塑料皮。如果真人穿着宽松的大毛衣,塑料皮就包不住,导致衣服变形、甚至露出奇怪的皮肤(形状泄露)。

2. HVG 的三大“独门秘籍”

为了解决这些问题,HVG 设计了三个聪明的策略:

秘籍一:给关节穿上“弹力球衣” (Articulated Pose Modulation)

  • 比喻:以前的骨架是细细的“铁丝”,HVG 给每根骨头都套上了一个立体的“弹力球”(论文里叫椭球体)。
  • 作用:这些“弹力球”不仅知道关节的位置,还知道关节的粗细体积
    • 当手臂交叉时,弹力球会像真实的肌肉一样互相挤压、遮挡,而不是互相穿透。
    • 它保留了 3D 的空间感,但又不会像标准人体模型那样把衣服“撑破”。
    • 结果:无论怎么转圈,衣服和身体的关系都自然合理,不会出现“胳膊长在背上”的恐怖画面。

秘籍二:把所有人“排排坐” (View and Temporal Alignment)

  • 比喻:想象你在拍一群人在不同角度的视频。如果每个人站的位置忽左忽右,剪辑师(AI)就会晕头转向,不知道哪张脸对应哪个人。
  • 作用:HVG 在生成视频前,会先做一个“对齐”动作。它把不同角度的画面里的人,都自动移到屏幕正中央,就像把所有人整齐地排成一排。
  • 好处:这样 AI 在计算“左边的人”和“右边的人”是不是同一个人时,就简单多了,不需要去猜复杂的 3D 空间关系。这让视频在不同角度切换时,人物位置非常稳定,不会乱跳。

秘籍三:像“拼图”一样生成长视频 (Progressive Spatio-Temporal Sampling)

  • 比喻:如果要生成一个长达 1 分钟、包含 360 度旋转的复杂视频,就像要拼一幅巨大的拼图。如果一次性拼,电脑会累死,而且容易拼错(比如前面是夏天,后面突然变冬天)。
  • 作用:HVG 采用**“化整为零,再拼合”**的策略。
    • 它先把视频切成很多小段(时间上切,角度上也切)。
    • 每一小段单独生成,保证这一小段里动作流畅、角度连贯。
    • 最后,它像拼图一样,把重叠的部分完美融合在一起。
  • 结果:既能生成超长的视频,又能保证从头到尾动作丝滑,不会出现突然卡顿或画面撕裂。

3. 实际效果如何?

论文做了大量测试,结果显示 HVG 是目前的“优等生”:

  • 更真实:衣服上的褶皱会随着动作自然变化,不会像塑料一样僵硬。
  • 更连贯:当你围着人物转圈看时,不会看到人物突然“瞬移”或身体部位消失。
  • 更灵活:无论是单张图片还是多张图片,无论是静止还是剧烈运动,它都能搞定。

4. 还有什么小缺点?

就像任何技术一样,它也不是完美的。

  • 面部细节:因为 HVG 主要关注全身的大动作和结构,有时候人物的鼻子、嘴巴等面部细节可能会稍微有点模糊或变形(就像画大场景时,远处的脸画得不够精细)。
  • 解决方案:作者建议,未来可以把“画脸”和“画身体”分开,专门用一个更精细的 AI 来画脸,再拼上去,效果就会更完美。

总结

简单来说,HVG 就是给 AI 装上了一套“懂人体解剖学”的 3D 骨架,并教它如何把不同角度的画面整齐排列,最后像拼乐高一样把长视频完美组装起来。 这项技术让从单张照片生成 3D 动画变得前所未有的真实和流畅,未来在电影制作、游戏角色设计、甚至虚拟偶像直播中都有巨大的应用潜力。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →