RDM: Recurrent Diffusion Model for Human Motion Generation

本文提出了一种名为 RDM 的循环扩散模型,它利用归一化流显式地以前序噪声帧为条件来生成人体运动,从而在避免完全去噪开销的同时实现了长序列生成并显著降低了推理成本。

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 RDM (Recurrent Diffusion Model,循环扩散模型) 的新方法,专门用来让计算机根据文字描述生成人类的动作(比如“一个人拿着篮球运球”)。

为了让你更容易理解,我们可以把生成动作的过程想象成**“画一幅长卷画”或者“写一部长篇小说”**。

1. 以前的方法有什么痛点?

在 RDM 出现之前,生成动作主要有两种“笨办法”:

  • 方法 A:一次性画完(Volume Diffusion)
    • 比喻:就像你要画一幅长卷画,你必须在画布上一次性把整幅画都画出来,不能只画一部分。
    • 问题:如果画卷太长,电脑内存会爆炸,算不过来。所以以前的模型只能生成很短的动作(比如只能画 5 秒),想画长一点就卡住了。
  • 方法 B:像写日记一样一段段写(Autoregressive Diffusion)
    • 比喻:这就像写小说,写完第一章,必须把第一章彻底改好、定稿,才能开始写第二章。
    • 问题:虽然能写很长,但效率极低。因为每写新的一段,电脑都要把前面所有已经写好的部分重新“精修”一遍,非常耗时。而且,如果第一章稍微有点小瑕疵,后面可能会越写越歪(动作不连贯)。

2. RDM 是怎么做的?(核心创新)

RDM 提出了一种**“循环扩散”的新思路。我们可以把它想象成“接力赛”或者“滚雪球”**。

  • 核心思想
    想象你在画长卷画。RDM 不需要一次性画完,也不需要每画一笔都把整幅画重画一遍。
    它画完第一小段后,保留第一小段的“草稿状态”(带点噪点/模糊),直接把它作为画第二小段的参考底稿

    • 比喻:就像你写小说,写完第一章,你不需要把第一章彻底定稿,而是直接拿着第一章的草稿去构思第二章。第二章的灵感直接来源于第一章的草稿,这样既快又连贯。
  • 技术魔法:正态流(Normalizing Flows)

    • 问题:直接拿“草稿”去参考,数学上有个大麻烦:草稿是模糊的,直接传递可能会导致概率计算出错,就像用模糊的地图导航,容易迷路。
    • 解决:RDM 使用了一种叫“正态流”的数学工具。
    • 比喻:这就像给“草稿”加了一个**“智能翻译器”**。无论草稿有多模糊,这个翻译器都能保证它传递到下一段时,依然符合逻辑和概率规则,不会让动作“崩坏”。

3. RDM 厉害在哪里?

  1. 能画超长画卷(无限生成)
    以前的模型只能画固定长度(比如 5 秒),RDM 可以一直画下去。只要文字描述是“一个人运球”,它就能一直生成运球的动作,直到你喊停。而且动作非常连贯,不会像以前的模型那样,画到后面脚就“飘”了或者动作变形了。

  2. 速度极快(跳过步骤)
    这是最酷的一点。以前的“接力赛”方法,每接一棒都要把前面的棒子擦得锃亮(完全去噪)才能接。
    RDM 发明了一种**“楼梯式采样”**技巧。

    • 比喻:想象下楼梯。以前的方法是每下一层都要把楼梯擦干净再下。RDM 的方法是:直接看准了,跨步跳下几层!它跳过了很多不必要的计算步骤,直接跳到关键节点。
    • 结果:生成同样长度的动作,RDM 比以前的方法快得多(有的情况下快 10 倍以上)。
  3. 动作更自然
    因为它是“带着草稿”去生成下一段,所以动作之间的过渡非常自然,不会出现“断片”或者“脚底打滑”的情况。

4. 总结

如果把生成人类动作比作**“导演指导演员排练”**:

  • 旧方法:要么要求演员一次性把整场戏演完(太累,演不长);要么演完一场戏,导演要把整场戏重新排练一遍才能开始下一场(太慢)。
  • RDM 方法:导演看着演员上一场的即兴发挥(带点模糊的草稿),直接指导下一场戏。既不需要重头再来,又能保证剧情连贯,而且导演还能跳过一些琐碎的排练步骤,直接抓重点。

一句话总结:RDM 让电脑生成动作变得更、更、更连贯,就像给动作生成装上了“涡轮增压”和“自动驾驶”系统。