Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning

本文提出了 GoRL 框架,通过将策略优化限制在可处理的潜在空间并将动作生成委托给条件生成解码器,成功解决了在线强化学习中生成式策略在优化稳定性与表达力之间的权衡难题,从而在连续控制任务中实现了显著的性能提升。

Chubin Zhang, Zhenglin Wan, Feng Chen, Fuchao Yang, Lang Feng, Yaxin Zhou, Xingrui Yu, Yang You, Ivor Tsang, Bo An

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GORL 的新方法,旨在解决人工智能(AI)在“在线学习”(即边做边学)过程中面临的一个核心矛盾:如何既让 AI 学得快且稳,又能让它学会极其复杂的动作?

为了让你更容易理解,我们可以把训练 AI 比作教一个机器人跳舞

1. 核心难题:太简单 vs. 太复杂

在教机器人跳舞时,我们通常有两种策略:

  • 策略 A:简单的“单模态”老师(高斯分布)

    • 比喻:就像教一个初学者,老师只教一种最标准的舞步。比如“跳起来,手举高”。
    • 优点:非常稳定,不容易出错,学起来很顺滑。
    • 缺点:太死板了!如果舞蹈需要“有时候跳高,有时候跳低,有时候转圈”,这种单一的老师就教不会。它只能教出一个“平均”的、平庸的舞步,导致机器人跳得很笨拙。
    • 论文里的术语:单模态高斯策略(Unimodal Gaussian Policy)。
  • 策略 B:复杂的“生成式”老师(扩散模型/流匹配)

    • 比喻:这是一个天才艺术家老师,它能教出成千上万种复杂的舞步,甚至能教机器人即兴发挥。
    • 优点:表达能力极强,能学会高难度的多模式动作(比如既会跳芭蕾也会跳街舞)。
    • 缺点太不稳定了! 就像让一个初学者直接跟天才艺术家学,老师讲得太深奥,学生(AI)根本听不懂,或者学着学着就“走火入魔”了,最后连最简单的动作都忘了。
    • 论文里的术语:生成式策略(Diffusion/Flow Matching Policies),但在在线学习中容易崩溃。

目前的困境:我们要么选稳定的“笨老师”,要么选不稳定的“天才老师”。很难两者兼得。


2. GORL 的解决方案:拆包与接力

这篇论文提出的 GORL 框架,核心思想是**“拆包”**(Decoupling)。它把“学动作”和“教动作”分开,让两个不同的角色各司其职。

想象一下,GORL 把舞蹈教学分成了两个阶段,由两个人配合完成:

角色一:潜空间策略(Encoder)—— “稳重的教练”

  • 任务:负责学习做决策
  • 特点:它只负责在一个简单的、数学上很好算的“潜空间”里思考。比如,它只决定“今天心情是 0.5(有点兴奋)”还是"-0.5(有点低落)”。
  • 为什么稳:因为它只处理简单的数字(高斯分布),就像教练只给简单的指令,所以训练过程非常稳定,不会崩溃。

角色二:生成式解码器(Decoder)—— “天才的编舞师”

  • 任务:负责把指令变成动作
  • 特点:它接收教练的简单指令(比如“心情 0.5"),然后把它“翻译”成极其复杂的舞蹈动作(比如“先转三圈,再做一个高难度的后空翻”)。
  • 为什么强:它拥有强大的生成能力(扩散模型或流匹配),能把简单的指令变成花样百出的动作。

3. 它是如何工作的?(双时间尺度交替训练)

GORL 最巧妙的地方在于它的训练节奏,就像是一个“交替接力赛”:

  1. 第一阶段:教练先练(冻结编舞师)

    • 先把“天才编舞师”固定住,让它保持不动。
    • 让“稳重教练”在简单的规则下疯狂练习,根据奖励(比如跳得好就给糖)来调整自己的决策。
    • 结果:教练学会了怎么在当前的编舞下跳得更好。
  2. 第二阶段:编舞师进修(冻结教练)

    • 现在教练已经练好了,我们把它固定住。
    • 让“天才编舞师”去观察教练刚才跳得好的那些动作。
    • 关键点(防止走火入魔):编舞师不是直接模仿教练刚才跳的,而是基于一个固定的“标准模板”(高斯先验),去重新学习如何把“标准模板”变成“教练刚才跳出的好动作”。
    • 比喻:就像编舞师拿着一个标准的乐谱,去研究怎么把它改编成刚才那首好听的曲子,而不是直接照着录音机回放。这样能确保编舞师学到的是真正的“进步”,而不是在原地打转。
  3. 循环往复

    • 编舞师变强了,能跳更复杂的动作了。
    • 然后我们重置一下教练,让它在这个新的、更强大的编舞师指导下,继续学习新的策略。
    • 就这样,教练和编舞师互相促进,一个比一个强

4. 为什么这个方法很牛?

  • 解决了“稳定性”问题:因为复杂的生成模型(编舞师)不直接参与复杂的数学梯度计算,所以不会导致训练崩溃。
  • 解决了“表达能力”问题:因为编舞师是强大的生成模型,最终教出来的机器人可以学会非常复杂、多变的动作(比如同时学会几种不同的站立姿势)。
  • 实战效果惊人
    • 在著名的测试任务(如让一只虚拟小跳蛙保持站立,即 HopperStand)中,传统的 AI 只能得 300 分左右,而 GORL 能拿到 870 分以上,是其他方法的 3 倍多
    • 这就像别的机器人还在学怎么不倒下,GORL 已经能表演高难度的平衡杂技了。

总结

这篇论文就像是在说:

“别试图让一个初学者直接去学高深的艺术,也别让一个只会跳广播体操的老师去教现代舞。
GORL 的做法是:找一个稳重的教练负责制定简单的计划,再找一个天才的编舞师负责把计划变成华丽的舞蹈。两人轮流进修,教练负责学策略,编舞师负责学怎么把策略实现得更完美。
结果就是:既稳如泰山,又华丽多彩。”

这就是 GORL 如何在保持训练稳定的同时,让 AI 拥有超强表达能力的秘密。