ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

ExGes 提出了一种新颖的检索增强扩散框架,通过构建动作库、采用对比学习与动量蒸馏的检索模块以及结合部分与随机掩码的精度控制模块,显著提升了音频驱动手势合成的自然度、语义相关性、多样性及与音频的对齐效果。

Xukun Zhou, Fengxin Li, Ming Chen, Yan Zhou, Pengfei Wan, Di Zhang, Yeying Jin, Zhaoxin Fan, Hongyan Liu, Jun He

发布于 2026-04-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ExGes 的新系统,它的核心任务是:让电脑根据人说话的声音,自动生成非常自然、生动且富有表现力的肢体动作(手势)。

想象一下,你正在给一个虚拟数字人(比如游戏里的 NPC 或虚拟主播)配音。以前的技术生成的动作往往像“机器人”:要么动作太僵硬,要么手势和说话的内容对不上(比如说到“开心”时却在摆手说“再见”)。

ExGes 就像是一位**“超级导演 + 动作参考库”**,它解决了这个问题。我们可以用三个生动的比喻来理解它的核心工作原理:

1. 建立“动作图书馆” (Motion Base Construction)

比喻:就像给导演准备了一个巨大的“动作参考素材库”。

以前的系统就像是一个只会死记硬背的学生,听到声音就凭感觉瞎编动作,容易编错。
ExGes 首先做了一件聪明的事:它把成千上万条真实人类说话时的视频和声音数据整理好,建立了一个**“动作图书馆”**。这个图书馆里存满了各种各样生动、细腻的手势,并且每一个手势都标记好了它对应的是哪句话、哪种情绪。

2. 智能“选角导演” (Motion Retrieval Module)

比喻:就像导演在开拍前,迅速从图书馆里挑出最合适的“参考动作”。

当系统听到一段新的语音(比如:“这真是太重要了!”)时,它不会凭空想象,而是立刻去那个“动作图书馆”里搜索:

  • “这句话充满了强调的语气,以前谁说过类似的话?当时他们做了什么手势?”
  • 系统利用一种**“对比学习”**技术(可以理解为一种高级的“找茬”训练),精准地找到那些最能表达这句话情感的动作片段。

这就好比导演在拍电影前,先给演员看一段参考视频:“你看,说到‘重要’这个词时,演员应该这样挥手指,这样才够味。”

3. “精准修图师” (Precision Control Module)

比喻:就像在生成的视频上,用“蒙版”进行精细的局部调整。

找到了参考动作后,怎么把它完美地融合进新的视频里呢?ExGes 使用了一种**“部分遮挡与随机训练”**的策略。

  • 部分遮挡(Partial Masking): 想象你在画画,系统会把参考动作中“最精彩的那几帧”(比如手指指向天空的瞬间)保留下来,作为“骨架”或“路标”,然后让 AI 去填补中间的过程。这样既保证了动作的精准度,又不会让 AI 完全照搬。
  • 随机训练(Stochastic Masking): 在训练过程中,系统会故意“藏起”一部分声音或动作,强迫 AI 学会即使信息不全,也能猜出最合理的动作。这让 AI 变得更聪明、更灵活,不会死板。

为什么 ExGes 很厉害?(实验结果)

研究人员在著名的 BEAT2 数据集上测试了 ExGes,结果非常惊人:

  • 更自然: 在用户调查中,71.3% 的人认为 ExGes 生成的动作比目前最好的竞争对手(EMAGE)更自然、更像真人。
  • 更懂你: 它生成的动作和说话内容的“契合度”极高。比如说到“一般般”时,它会摊手;说到“非常棒”时,它会竖起大拇指。
  • 更多样: 它不会总是重复同一个动作,而是能根据语境生成丰富多样的手势。

总结

简单来说,ExGes 就是给 AI 装上了一个“动作参考库”和一把“精准手术刀”
它不再只是机械地根据声音“猜”动作,而是先检索历史上最匹配的精彩动作,再通过精细控制把这些动作完美地“移植”到新的对话中。这让虚拟人的表演不再是冷冰冰的代码,而是真正有了“灵魂”和“情感”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →