MultiAnimate: Pose-Guided Image Animation Made Extensible

本文提出了一种基于扩散 Transformer 的可扩展多角色图像动画框架,通过引入标识符分配器和适配器解决身份混淆与遮挡问题,实现了仅需双人数据训练即可泛化至任意多角色场景的 SOTA 性能。

Yingcheng Hu, Haowen Gong, Chuanguang Yang, Zhulin An, Yongjun Xu, Songhua Liu

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MultiAnimate 的新技术,它的核心能力是:让一张照片里的人“活”起来,并且能同时让好几个人一起跳舞或做动作,而且每个人都能保持自己的长相不变。

为了让你更容易理解,我们可以把这项技术想象成**“给照片里的演员们排演一场电影”**。

1. 以前的难题:混乱的“换脸”现场

想象一下,你以前用 AI 让照片里的人动起来(比如跳舞),通常一次只能让一个人跳。

  • 如果强行让两个人跳: 以前的技术就像是一个记性不好的导演。当两个人在画面里交叉、遮挡或者交换位置时,导演会糊涂:“刚才那个穿红衣服的是谁?现在那个穿蓝衣服的又是谁?”结果就是,两个人的脸可能会突然互换(身份混淆),或者一个人莫名其妙地穿进了另一个人的身体里(不合理的遮挡)。
  • 如果让三个人跳: 以前的导演更是直接罢工。如果你只教过导演怎么指挥两个人,突然让他指挥三个人,他就完全不会了,因为他的“剧本”里没写过三个人的情况。

2. MultiAnimate 的绝招:给每个人发“专属工牌”

为了解决这个问题,作者设计了一套聪明的系统,核心在于两个新组件,我们可以把它们比作**“发牌员”“翻译官”**。

第一步:发牌员 (Identifier Assigner) —— 给每个人发“专属工牌”

在电影开拍前(生成视频前),系统会先给画面里的每个人发一个隐形的“专属工牌”

  • 不管画面里是两个人还是三个人,系统都会给每个人分配一个独特的编号(比如 A 号、B 号、C 号)。
  • 这个工牌是贴在每个人的**身体轮廓(面具)**上的,而不是贴在背景上的。
  • 比喻: 就像在舞池里,不管人怎么挤来挤去,每个人手里都紧紧攥着自己专属的号码牌。即使两个人交换了位置,A 号还是 A 号,B 号还是 B 号,导演(AI)一眼就能认出来。

第二步:翻译官 (Identifier Adapter) —— 听懂“工牌”的指令

有了工牌还不够,AI 的“大脑”(也就是底层的 Diffusion Transformer 模型)需要能听懂这些工牌在说什么。

  • 这个“翻译官”的作用就是把“工牌”的信息翻译成 AI 能听懂的“动作指令”。
  • 它告诉 AI:“现在 A 号工牌的人要往左走,B 号工牌的人要往右走,而且 A 号挡住了 B 号。”
  • 比喻: 就像是一个精通多国语言的翻译,不管场上有多少个演员,它都能准确地把“谁该做什么”传达给 AI 大脑,确保每个人都知道自己该演什么,不会串戏。

3. 最厉害的地方:举一反三的“超级训练法”

通常,如果你想让 AI 学会指挥三个人,你就得找三个人的视频数据重新训练它,这非常麻烦且昂贵。但 MultiAnimate 有一个**“超级训练法”**:

  • 只教两个人,却能指挥七个人:
    研究人员只用了两个人跳舞的数据来训练这个系统。但是,他们在训练时玩了一个“随机游戏”:每次训练,都随机从一堆“工牌”里抽取两个发给演员。
  • 结果: 等训练结束时,AI 的大脑里已经把所有可能的“工牌”都认识了一遍,并且学会了**“只要看到工牌,就知道该让谁动”**,而不是死记硬背“左边的人是谁,右边的人是谁”。
  • 比喻: 这就像你只教孩子认了“苹果”和“香蕉”两种水果,但因为教的方法好(让他理解水果的特征而不是死记位置),当他看到“橘子”或“西瓜”时,他也能立刻认出那是水果,并且知道该怎么处理。
  • 实际效果: 论文里展示了,虽然只用了两个人的数据训练,但模型竟然能完美地生成三个人甚至七个人一起跳舞的视频,而且每个人的脸都认得出来,不会乱套。

4. 总结:它带来了什么?

简单来说,MultiAnimate 就像是一个超级导演

  1. 不乱套: 即使画面里的人挤在一起、互相遮挡,每个人都能保持自己的长相(身份一致)。
  2. 不挑人: 不管你是想拍双人舞还是七人舞,它都能搞定,不需要重新训练。
  3. 画质好: 生成的视频非常清晰、流畅,就像真的电影一样。

这项技术让 AI 视频生成从“单人独舞”迈向了“群魔乱舞”(当然是有序的),为未来的数字人、电影特效和社交娱乐打开了新的大门。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →