ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

本文提出了 ExpGest 框架,这是一种基于扩散模型的首创性全肢体手势生成方法,通过融合音频与文本信息、引入噪声情感分类器及潜在空间对齐技术,有效解决了现有方法在情感表达、语义一致性和全身运动自然度方面的不足,实现了更具表现力和可控性的演讲者动作生成。

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ExpGest 的新系统,它的核心目标是:让虚拟人物在说话时,不仅能做出自然的肢体动作,还能根据说话的内容、语气和情绪,做出富有表现力的全身动作。

为了让你更容易理解,我们可以把这项技术想象成**“教一个只会机械跳舞的机器人,如何成为一名真正的戏剧演员”**。

以下是用通俗语言和比喻对这篇论文的解读:

1. 以前的机器人有什么问题?(痛点)

以前的虚拟人物生成技术,就像是一个只会跟着节拍器跳舞的机器人

  • 只懂节奏,不懂内容:它们主要听声音的“旋律”(比如语速快慢、音调高低)来挥手。如果你说“我生气了”,它可能只是手挥得快一点,但表情和身体姿态可能还是笑嘻嘻的,完全不像在生气。
  • 只有上半身:以前的系统通常只关注手和胳膊,忽略了腿和身体的移动。就像一个人说话时,脚却像被钉在地上一样,看起来很僵硬。
  • 缺乏灵魂:它们不知道你在说什么(语义),所以动作和说话的内容经常对不上号。

2. ExpGest 是怎么做的?(核心创新)

ExpGest 就像给这个机器人请了一位**“全能导演”**,它结合了三种“剧本”来指导动作:

  1. 音频(声音的旋律):听语气是激昂还是平静。
  2. 文本(说话的内容):理解你在说什么故事。
  3. 情绪(内心的感受):知道你现在是愤怒、开心还是悲伤。

它通过一种叫**“扩散模型”(Diffusion Model)的新技术来生成动作。你可以把扩散模型想象成“从一团模糊的云雾中,慢慢雕刻出清晰雕像”**的过程。系统从一堆杂乱的随机动作开始,一步步“去噪”,直到动作变得清晰、自然且符合你的要求。

3. 它有哪些独特的“超能力”?

A. “分头行动”的指挥艺术(解耦手指与四肢)

  • 比喻:以前机器人是“全身一起动”,像个大木偶。ExpGest 发现,手指手臂/腿对声音的敏感度不同。
    • 当你平静地数数"1、2、3"时,手指可能会动(比如比划数字),但手臂可能很稳。
    • 当你情绪激动大喊时,手臂会大幅度挥舞,但手指可能只是握拳。
  • 做法:ExpGest 把“手指”和“身体”分开控制。它给手指分配了“理解语义”的任务(比如比划具体事物),给手臂分配了“理解旋律/情绪”的任务(比如表达激动)。这样动作就既精准又有感染力。

B. “情绪翻译官”(噪声情感分类器)

  • 比喻:以前的方法像是给机器人贴标签:“现在贴个‘生气’的标签,你就得生气”。但这很生硬,就像强行把一个人按在椅子上说“你现在要笑”。
  • 做法:ExpGest 发明了一个**“情绪导航仪”**。在生成动作的过程中,它会不断问自己:“现在的动作够‘生气’吗?”如果不够,它就通过一种特殊的数学方法(梯度优化),悄悄地把动作往“生气”的方向推一点点。
  • 效果:这样生成的情绪过渡非常自然,就像真人一样,从平静到愤怒是慢慢变化的,而不是突然切换。

C. “全身大舞台”(混合生成模式)

  • 比喻:以前的机器人只能站在原地挥手。ExpGest 不仅能挥手,还能走路、跑步、坐下
  • 做法:它不仅能听懂“声音”,还能听懂“文字指令”。比如你输入文字:“一个人生气地绕圈走,然后坐下”,它就能让虚拟人物真的绕圈走并坐下,同时手里还拿着麦克风说话。这是第一次有人能把“说话时的手势”和“走路等全身动作”完美结合起来。

4. 效果怎么样?(实验结果)

研究人员把 ExpGest 和目前最先进的其他方法进行了对比(就像让新老演员同台竞技):

  • 更自然:生成的动作不像机器人,更像真人。
  • 更懂你:动作和说话的内容、情绪高度一致。比如说到“踢”的时候,脚真的会动;说到“愤怒”时,动作幅度会变大。
  • 用户反馈:在让真人观看测试视频时,大家都觉得 ExpGest 生成的虚拟人物最像真的,最具有感染力。

总结

ExpGest 就像是给虚拟世界里的演员装上了**“大脑”(理解语义)、“耳朵”(听懂语气)和“心灵”(感知情绪)。它不再是一个只会机械挥手的木偶,而是一个能根据剧本、台词和心情,在舞台上自由行走、奔跑、表达情感的“全能演员”**。

这项技术未来可以用在:

  • 虚拟主播/数字人:让直播更生动。
  • 电影制作:快速生成高质量的动画角色动作。
  • 人机交互:让机器人助手看起来更亲切、更像人。