Diffusion Policy through Conditional Proximal Policy Optimization

该论文提出了一种基于条件近端策略优化(CPPO)的高效扩散策略训练方法,通过将对齐策略迭代与扩散过程简化为高斯概率评估,克服了传统扩散模型在在线强化学习中计算对数似然困难的问题,并实现了多模态行为生成与熵正则化的自然融合,在多个基准任务中取得了优异性能。

Ben Liu, Shunpeng Yang, Hua Chen

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让机器人(或游戏角色)变得更聪明、更灵活的新方法。为了让你轻松理解,我们可以把强化学习(RL)想象成教一个新手厨师做菜,而扩散模型(Diffusion Model)则是这位厨师的“灵感库”

1. 核心问题:传统方法的“死板”与“算不动”

  • 传统方法(高斯策略): 就像教厨师做菜时,只给他一个“标准菜谱”。比如“炒鸡蛋”,标准菜谱说:打 2 个蛋,放 1 勺盐。如果环境变了(比如客人想要更咸的),厨师只能在这个标准基础上微调。这就像单峰分布,动作很单一,缺乏想象力。
  • 扩散模型(新灵感库): 现在的扩散模型(类似 Sora 或 Midjourney 的技术)非常厉害,它能生成千变万化的“创意菜谱”。比如它不仅能做“炒鸡蛋”,还能做“番茄炒蛋”、“滑蛋”、“煎蛋卷”等等。这就像多模态分布,能应对各种复杂情况。
  • 遇到的大麻烦: 虽然扩散模型很厉害,但用它来教机器人(强化学习)有个致命弱点:太难算账了!
    • 在教机器人时,我们需要计算“这个动作好不好?”,这通常涉及复杂的数学概率计算(对数似然)。
    • 对于扩散模型,这个计算过程就像要把整个做菜过程倒着推演一遍,极其消耗电脑算力,甚至算不出来。这就好比为了评价一道菜,你得把从买菜到上桌的每一步都重新模拟一遍,太慢了!

2. 论文的创新:把“学做菜”变成“一步步微调”

这篇论文(DP-CPPO)想出了一个绝妙的办法,把复杂的“倒推演算”变成了简单的“一步步微调”。

核心比喻:把“迭代”变成“去噪”

想象一下,你手里有一团乱糟糟的毛线球(这是初始的、混乱的策略),你的目标是把它变成一个完美的毛衣(最优策略)。

  • 以前的做法: 每次都要重新计算怎么从乱毛线直接变到完美毛衣,还要算出每一步的概率,累得半死。
  • 这篇论文的做法(对齐):
    1. 把“学步”看作“去噪”: 作者把“训练一次策略”(Policy Iteration)直接看作是扩散模型中的“一步去噪”。
    2. 化繁为简: 既然每一步只是去噪,那我们就不需要算复杂的扩散模型概率了!我们只需要算**高斯分布(正态分布)**的概率。
    3. 形象理解: 就像你教厨师做菜,不再让他重新发明整个菜谱,而是告诉他:“在原来的菜谱基础上,稍微加一点盐,或者稍微多炒两秒”。这种“微调”只需要计算简单的概率(就像算一个标准的钟形曲线),电脑瞬间就能算完。

关键技巧:条件 PPO(CPPO)

论文给这个方法起了个名字叫**“条件近端策略优化”(Conditional PPO)**。

  • PPO 是现在最流行的教机器人学走路的算法(像是一个严格的教练)。
  • 条件(Conditional) 意味着:教练会根据当前的状态(比如“现在手抖了”),告诉机器人“在这个状态下,你应该怎么微调你的动作”。
  • 结果: 机器人不再需要去解复杂的微分方程,只需要像做数学题一样,算一个简单的“高斯分布”就能知道下一步该怎么走。

3. 为什么这个方法很牛?

A. 像“多面手”一样灵活(多模态能力)

在复杂的任务中(比如机器人要穿过一个有很多障碍物的迷宫),有时候往左走是对的,有时候往右走也是对的。

  • 旧方法(高斯): 像个死脑筋,只能选“中间路线”,结果卡在中间动不了(因为左右概率平均了,变成了原地踏步)。
  • 新方法(扩散): 像个聪明的探险家,它能同时保留“向左走”和“向右走”两种可能性。就像图 2 展示的那样,它能同时探索多条路径,找到最佳方案。

B. 既快又省(高效)

因为不需要反向传播整个扩散过程,只需要算简单的概率,所以训练速度非常快,甚至和传统的简单方法差不多快,但效果却好得多。

C. 鼓励“大胆尝试”(熵正则化)

在强化学习中,机器人需要“探索”(Entropy),不能太保守。

  • 以前的扩散方法很难加入“鼓励探索”的机制。
  • 这个方法因为把问题简化成了高斯分布,可以轻松加入“鼓励探索”的奖励,让机器人更敢于尝试新动作,不容易陷入死胡同。

4. 总结:这到底解决了什么?

这就好比:

  • 以前: 你想用超级 AI 画师(扩散模型)来指导机器人画画,但每次指导都要把画师的大脑整个拆解一遍来算分,太慢了,根本用不起。
  • 现在: 作者发明了一种新教法,让画师只负责“微调”笔触。每次只改一点点,既保留了画师丰富的创造力(多模态),又让计算变得像算算术一样简单(高效)。

最终效果: 在机器人跑步、抓取物体、无人机飞行等任务中,这个方法让机器人学得更聪明、动作更灵活,而且训练起来不卡顿,是强化学习领域的一次重要突破。