Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

本文提出了一种结合感知、规划与控制三阶段的框架,其核心是扩散式离散运动令牌器(MoTok),通过解耦语义抽象与精细重建,在显著降低令牌数量的同时,实现了语义条件与运动学约束下的高保真、高可控动作生成。

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu

发布于 2026-03-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MoTok 的新方法,它就像是为机器人或动画角色设计动作的“超级翻译官”和“精修大师”。

为了让你更容易理解,我们可以把生成人类动作想象成指挥一支交响乐团演奏音乐

1. 以前的难题:两个极端

在 MoTok 出现之前,生成动作主要有两种流派,但它们都有点“偏科”:

  • 流派 A(连续扩散模型): 就像一位即兴演奏家。他非常擅长处理细节,比如手指怎么弯曲、脚步怎么落地(运动学控制),动作很流畅。但是,如果你让他根据一段复杂的乐谱(语义,比如“悲伤地跳舞”)来演奏,他可能抓不住那种情感,容易跑调。
  • 流派 B(离散 Token 模型): 就像一位乐谱翻译官。他非常擅长理解乐谱的大意(语义),能把“悲伤”翻译成具体的音符序列。但是,他生成的音符往往比较粗糙,缺乏细腻的强弱变化,而且为了把动作描述清楚,他需要写非常长的乐谱(需要大量的 Token),效率很低。

以前的痛点: 如果你想让机器人既听懂“悲伤地跳舞”(语义),又要精确地让左手碰到特定的点(精细控制),以前的方法要么顾此失彼,要么需要写超级长的乐谱,计算量巨大。

2. MoTok 的解决方案:三阶段“导演组”

MoTok 提出了一套新的工作流程,把任务分给了三个角色,就像电影拍摄的感知、策划、控制三个阶段:

第一阶段:感知 (Perception) —— “听懂指令”

导演组先接收所有指令。

  • 全局指令: 比如“这是一个开心的舞蹈”(文本)。
  • 局部指令: 比如“左手必须在这个时间点碰到这个点”(轨迹/关键点)。
    MoTok 能同时听懂这两种指令,并把它们整理好。

第二阶段:策划 (Planning) —— “画分镜草图”

这是 MoTok 最厉害的地方。以前的方法试图用一张极其详细的照片来描述整个动作,既要有大轮廓,又要有毛孔细节,结果文件太大。

MoTok 的做法是:只画草图(Token)
它把动作压缩成非常简短的“分镜草图”。

  • 核心创新: 它不再强迫这些草图去记录每一个微小的抖动。它只负责记录“大方向”和“语义”(比如:先抬手,再转身)。
  • 比喻: 就像画漫画,草图里只画火柴人的大致动作,不需要画肌肉纹理。这让“乐谱”变得极短(只需要以前 1/6 的篇幅),大大减轻了后续工作的负担。

第三阶段:控制 (Control) —— “精修与执行”

有了草图后,MoTok 请来了那位即兴演奏家(扩散模型) 来执行。

  • 粗调(策划阶段): 在画草图时,先给个大概的约束(比如“手大概往那边去”)。
  • 精调(控制阶段): 在把草图变成真实动作时,扩散模型会根据之前的指令进行“精修”。如果要求左手必须碰到那个点,模型会在生成的最后几秒,像修图软件一样,把左手的位置微调得严丝合缝。

3. 为什么 MoTok 这么强?(核心比喻)

想象你要盖一座房子

  • 以前的方法: 试图用一块巨大的砖头(Token)来代表整面墙,既要保证墙是直的(语义),又要保证砖缝的纹理完美(细节)。结果就是砖头太大,盖起来慢,而且稍微有点歪,整面墙就塌了。
  • MoTok 的方法:
    1. 架构师(Tokenizer): 只负责画蓝图。他画得很简略,只标出“这里是墙,那里是门”。他不管砖缝多细,只保证结构对。
    2. 施工队(Diffusion Decoder): 拿着蓝图去盖房子。在盖的过程中,如果业主说“这面墙要往左移 1 厘米”,施工队能立刻在砌砖的时候微调,保证墙既符合蓝图,又完美对齐要求。

MoTok 的绝招在于“分工”:

  • 架构师只管“语义”和“大方向”,不用管细节,所以他的“乐谱”可以非常短(高效)。
  • 施工队去处理“细节”和“精准控制”,利用扩散模型强大的修复能力,在生成的最后阶段把动作修得完美无缺。

4. 实际效果有多好?

论文中的实验数据非常惊人:

  • 更精准: 在控制机器人走特定路线时,以前的方法误差可能有 72 厘米(像喝醉了一样),MoTok 把误差缩小到了 8 厘米(非常精准)。
  • 更逼真: 生成的动作看起来更像真人,而不是机器人。
  • 更省钱: 它只需要以前方法 1/6 的数据量(Token)就能达到甚至超过别人的效果。这意味着生成速度更快,成本更低。

总结

MoTok 就像是一个聪明的总导演。它不再试图让一个人既当编剧又当特效师。它把“写剧本”(语义规划)和“做特效”(精细动作控制)分开,让擅长写剧本的写简短的剧本,让擅长特效的在拍摄现场根据剧本即兴发挥并修正细节。

结果是:动作既听懂了人的话(语义准确),又做得非常漂亮(细节精准),而且干活还特别快(效率高)。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →