RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer

RAP 提出了一种基于视频扩散变换器的统一框架,通过引入混合注意力机制与静动态训练推理范式,在满足实时延迟和内存约束的同时,实现了高保真且音画同步的音频驱动肖像动画生成。

Fangyu Du, Taiqing Li, Qian Qiao, Tan Yu, Ziwei Zhang, Dingcheng Zhen, Xu Jia, Yang Yang, Shunshun Yin, Siyuan Liu

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 RAP 的新系统,它的核心任务非常有趣:让一张静止的照片,根据你提供的录音,像真人一样开口说话、做表情,而且速度要快到能实时互动。

想象一下,你给一张老照片录了一段话,RAP 就能让照片里的人“活”过来,完美对口型,表情自然,甚至能连续说上几个小时都不走样。

为了让你更轻松地理解这项技术,我们可以用几个生活中的比喻来拆解它的核心创新:

1. 核心难题:既要“快”,又要“好”,还要“不累”

以前的技术(像以前的老式动画师)想要画好一个说话的人,需要画很多张精细的草图(高维数据),或者把每一帧都存得很详细。这就像用高清摄像机拍电影,画质好,但文件巨大,电脑处理起来慢吞吞,根本没法实时聊天。

如果为了求快,把视频压缩得很小(就像把高清电影压缩成低清短视频),虽然速度快了,但细节容易丢失,嘴巴对不上音,或者聊着聊着人脸就“漂移”变形了。

RAP 的突破:它找到了一种完美的平衡点,既能在“低清压缩”的快车道上飞驰,又能保持“高清电影”般的细节和稳定性。

2. 三大“独门秘籍”

秘籍一:混合注意力机制(像“双耳听音”)

以前的模型听录音时,要么只关注整体情绪(像听大合唱),要么只关注嘴巴动作(像听单字发音)。但在高压缩状态下,这两者很难兼顾。

RAP 设计了一个**“双耳听音”**的机制:

  • 一只耳朵听全局:关注整段录音的情感、语调和整体氛围,确保人物表情自然(比如高兴时眼睛会笑)。
  • 另一只耳朵听细节:专门盯着嘴巴和发音部位,确保每一个音节的口型都精准对应。
  • 效果:就像一位经验丰富的配音演员,既能把握角色的整体情绪,又能把每一个字的口型咬得清清楚楚。

秘籍二:静动结合的“接力赛”训练(解决“聊久了就变脸”的问题)

这是 RAP 最聪明的地方。

  • 旧方法的痛点:以前的模型在生成长视频时,是“拿着上一帧的结果去画下一帧”。这就像传话游戏,第一个人传话给第二个人,第二个人再传给第三个人。传久了,信息会失真,人脸就会慢慢变形、漂移,甚至背景都在晃动。
  • RAP 的解法:它不再死板地依赖上一帧的“成品”,而是依赖上一帧的“草稿”(潜在特征)。
    • 比喻:想象你在画连环画。旧方法是把上一张画好的图直接贴下来当底稿,如果上一张画歪了,下一张也会歪。
    • RAP 的方法是:它把上一张画的**“线条骨架”(潜在特征)拿过来,作为新画面的参考,但重新起笔**去画。这样,即使上一段有点小瑕疵,也不会把错误无限放大。
    • 同时,它在训练时,既教模型从“静止照片”开始画,也教模型从“动态画面”中间开始画。这就像训练一个运动员,不仅练起跑,也练中途加速,这样无论视频多长,它都能无缝衔接,永远不会“聊着聊着就变脸”或“背景乱抖”

秘籍三:实时性(像“直播”而不是“录像”)

因为采用了上述的高效压缩和智能策略,RAP 可以在普通的显卡上实时运行。这意味着你可以用它做虚拟主播、实时翻译,或者在视频通话中让数字人即时回应,延迟极低,就像真人对话一样流畅。

3. 实际效果怎么样?

论文通过大量实验证明:

  • 对口型更准:嘴巴动作和声音完美同步。
  • 表情更自然:不像机器人那样僵硬,会有自然的眨眼和微表情。
  • 长时间不崩坏:即使连续生成几分钟甚至更久的视频,人脸依然稳定,不会像其他方法那样越聊越扭曲。
  • 速度快:每秒能生成 40 多帧画面,远超人类视觉的流畅度,且只需很少的电脑内存。

总结

简单来说,RAP 就像给数字人装上了一套“超级大脑”和“灵活关节”。它不再需要笨重的高清数据堆砌,而是学会了在“轻装上阵”的同时,依然能精准地控制每一个微表情,并且拥有极强的记忆力,能连续不断地、稳定地和你聊天,而不会忘记自己长什么样。

这项技术让“让照片开口说话”从一种昂贵的特效,变成了未来可以随时随地使用的实时工具。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →