Disentangled Hierarchical VAE for 3D Human-Human Interaction Generation

本文提出了一种基于解耦分层变分自编码器的潜在扩散模型(DHVAE),通过 CoTransformer 模块将全局交互上下文与个体运动模式解耦,并结合对比学习与 DDIM 去噪过程,实现了高保真、语义对齐且物理合理的 3D 人机交互生成。

Zichen Geng, Zeeshan Hayder, Bo Miao, Jian Liu, Wei Liu, Ajmal Mian

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DHVAE 的新方法,它的任务是让计算机根据一段简单的文字描述(比如“两个人握手”或“一起跳舞”),生成非常逼真、自然的3D 双人互动动作

为了让你更容易理解,我们可以把生成双人动作想象成导演指导两个演员排练一场双人戏

1. 以前的“导演”遇到了什么麻烦?

在 DHVAE 出现之前,其他的 AI 模型(就像以前的导演)在指导两个演员时,通常犯两个大错误:

  • 把两个人“糊”在一起了:以前的模型把两个人的动作信息压缩进同一个“大脑”里。这就像导演只给两个演员发了一张写满字的纸条,上面混杂着“张三要抬手”和“李三要弯腰”的指令。结果,演员们分不清哪些动作是自己的,哪些是配合对方的。这导致生成的动作经常逻辑混乱,比如两个人明明在握手,手却穿过了彼此的身体(像幽灵一样),或者根本碰不到一起。
  • 缺乏“大局观”:以前的模型太关注每个人具体的肢体动作,却忽略了两人互动的“氛围”和“意图”。就像演员只顾着练自己的独舞,却忘了配合对方的节奏,导致两人虽然都在动,但看起来像是在各跳各的,完全没有互动感。

2. DHVAE 的“新导演”是怎么做的?

DHVAE 提出了一种全新的**“分层导演法”**,它把任务拆解成了三个清晰的层次,就像给剧组配备了三个不同的部门:

第一层:个人演员组(zaz_azbz_b

  • 比喻:这是给演员 A演员 B各自的“个人剧本”。
  • 作用:这部分专门负责记录每个人独特的动作细节。比如,演员 A 是个高个子,走路带风;演员 B 是个矮个子,动作灵活。DHVAE 确保每个人都能保留自己的个性,不会在互动中迷失自我。

第二层:总导演组(zoz_o

  • 比喻:这是总剧本互动氛围组
  • 作用:这部分专门负责记录“两人正在做什么”以及“他们之间的关系”。比如,“握手”这个动作,总导演组会定义:“手要伸出去,手掌要相对,力度要适中”。它不关心具体是谁的手,只关心“握手”这个互动的本质

第三层:智能协调员(CoTransformer)

  • 比喻:这是一个超级翻译官协调员
  • 作用:它负责把“个人剧本”和“总剧本”完美地融合在一起。它告诉演员 A:“虽然你在走自己的路,但你要配合总剧本里的握手节奏”;同时告诉演员 B:“你要看着演员 A 的手,准备接住”。它确保了两个人的动作既独立又同步。

3. 它是如何避免“穿模”(手穿过身体)的?

这是这篇论文最精彩的部分。以前的模型经常让手穿过身体,就像两个幽灵在握手。DHVAE 引入了一个**“物理现实训练法”**(对比学习):

  • 比喻:想象导演在训练演员时,不仅让他们排练,还专门设置了一个**“找茬游戏”**。
    • 正样本(对的):导演让演员 A 和 B 正常握手,然后稍微挪动一点点位置(比如前后挪 5 厘米),只要还能握手,就奖励他们。
    • 负样本(错的):导演故意把两人挪得很远,或者让他们的手直接穿进对方身体里。
    • 训练结果:通过这种“找茬”,AI 学会了**“什么是合理的接触”**。它明白了:握手时,手必须碰到,但不能穿过去;如果手穿过去了,那就是“错误”的,必须修正。这让生成的动作在物理上非常真实,不再出现幽灵穿墙的现象。

4. 最后的“魔法”:去噪过程(Diffusion)

生成动作的过程,就像是从一团混乱的云雾中慢慢雕刻出清晰的雕像。

  • 一开始,AI 脑子里只有一团模糊的噪音(像一团乱麻的线)。
  • 通过 DHVAE 的“分层导演”和“物理训练”,AI 一步步去掉噪音,先确定互动的框架(总剧本),再细化每个人的动作(个人剧本)。
  • 最后,原本混乱的云雾就变成了清晰、流畅、符合物理规律的 3D 双人舞蹈或握手动作。

总结:DHVAE 厉害在哪里?

  1. 分得清:它把“个人动作”和“互动关系”分开处理,互不干扰,所以动作更自然。
  2. 懂物理:它通过特殊的训练,学会了“手不能穿墙”、“握手要碰到”等物理常识,消除了很多奇怪的 BUG。
  3. 听指挥:它能精准地根据文字描述(如“两人击掌”)生成对应的动作,而且生成的动作既多样又逼真。

简单来说,DHVAE 就是给 AI 装上了一个**“懂物理、会分工、有大局观”的超级导演**,让它能指挥两个虚拟人跳出最完美的双人舞。