Rethinking Policy Diversity in Ensemble Policy Gradient in Large-Scale Reinforcement Learning

本文针对大规模强化学习中单一策略探索能力受限及盲目多样化探索可能损害训练稳定性的问题,提出了一种通过 KL 散度约束调节策略间多样性的“耦合策略优化(Coupled Policy Optimization)”方法,该方法在多个复杂任务中实现了比 SAPG、PBT 和 PPO 等基线更优的样本效率与最终性能,并揭示了策略在训练中自然形成以领导者为中心的有序探索结构。

Naoki Shitanda, Motoki Omura, Tatsuya Harada, Takayuki Osa

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要讲的是:在让机器人通过“试错”来学习复杂技能(比如用手灵活地抓东西)时,如何组织一群“老师”和“学生”一起训练,才能既学得快,又不会学歪。

为了让你更容易理解,我们可以把整个学习过程想象成一个超级庞大的“特训营”

1. 背景:为什么需要“特训营”?

现在的机器人学习(强化学习)就像让一个小孩在迷宫里找出口。

  • 传统方法(PPO): 只有一个教练带着一个学生,在迷宫里到处乱跑。虽然也能学会,但太慢了,因为探索的范围有限。
  • 大规模并行(新趋势): 现在有了超级显卡(GPU),我们可以同时让几万个机器人(学生)在几万个平行宇宙里跑。这就像开了一所拥有几万名学生的超级学校。
  • 问题出现了: 如果这几万个学生都听同一个教练(策略)的指挥,他们跑出来的路线会非常相似(大家都往左拐,或者都往右拐)。这就好比几万个学生都在同一个狭小的房间里转圈,虽然人多,但探索效率很低,还是找不到新出路。

2. 现有的解决方案: “领队”与“跟班”模式 (SAPG)

为了解决大家跑得太像的问题,之前的研究(SAPG)提出了一种**“领队 + 跟班”**的架构:

  • 领队 (Leader): 一个核心教练,负责总结大家的经验,制定最终策略。
  • 跟班 (Followers): 一群性格各异的教练,他们被派去不同的区域探索,收集各种稀奇古怪的数据。
  • 运作方式: 跟班们收集数据后,全部汇报给领队。领队利用这些数据来更新自己的策略。

这个模式的好处: 探索范围大了,数据多了。
这个模式的缺陷(论文发现的核心问题):
如果跟班们太“有个性”了,跑得太远,他们收集的数据对领队来说可能完全没用,甚至有害。

  • 比喻: 想象领队是一个想学“做中餐”的厨师。跟班 A 跑去学“做意大利面”,跟班 B 跑去学“做巴西烤肉”。他们给领队的数据(食谱)虽然很丰富,但跟领队想学的方向(中餐)完全不匹配
  • 后果: 领队看着这些乱七八糟的数据,不仅学不到东西,还会因为数据偏差太大而**“学傻了”**(训练不稳定),甚至把原本会做的菜都忘了。

3. 论文提出的新方法:CPO (耦合策略优化)

这篇论文提出了一种新方法叫 CPO,它的核心思想是:“既要百花齐放,又要不离谱”

它给“跟班”们加了两条规矩:

规矩一:给跟班戴上“隐形项圈” (KL 约束)

  • 原理: 论文通过数学证明,跟班和领队的策略如果差异太大(KL 散度大),领队就学不到东西。
  • 比喻: 就像给每个跟班教练戴上了一个隐形的项圈,项圈的另一头系在领队身上。
    • 跟班可以到处跑(探索),但不能跑太远
    • 他们必须在领队周围的“安全区”内探索。
    • 这样,跟班收集的数据虽然有新意,但依然对领队有用,不会让领队“水土不服”。

规矩二:防止“抱团取暖” (对抗性奖励)

  • 问题: 如果只戴项圈,跟班们可能会因为怕跑太远,全都挤在领队身边,变得一模一样(过拟合),失去了多样性。
  • 解决: 引入一个**“挑刺员” (判别器)**。
  • 比喻: 这个挑刺员会问:“你是谁?”如果跟班 A 和跟班 B 表现得一模一样,挑刺员就认不出他们,他们就拿不到奖励。
    • 为了拿到奖励,跟班们必须保持自己的独特性,在“安全区”内尽量往不同的方向探索。
    • 结果就是:跟班们像众星拱月一样,均匀地分布在领队周围,既不乱跑,也不挤在一起。

4. 效果怎么样?

作者在很多高难度的机器人任务上(比如用灵巧手玩魔方、扔东西、双手机械臂协作)做了实验:

  • 对比对象: 传统的 PPO、之前的“领队 - 跟班”法 (SAPG)、以及另一种群体训练法 (PBT)。
  • 结果:
    • 学得更快: 达到同样的水平,CPO 需要的训练时间(样本量)只有 SAPG 的一半。
    • 更稳: 在那些让其他方法“学废了”的复杂任务上,CPO 依然能稳定学会。
    • 结构清晰: 观察发现,CPO 的跟班们确实像论文预测的那样,整齐地分布在领队周围,没有乱跑。

总结

这篇论文告诉我们一个深刻的道理:在大规模并行训练中,“多”不代表“好”

  • 如果让一群学生完全自由发挥,他们可能会跑偏,导致老师(领队)学不到东西。
  • CPO 的智慧在于: 它不是盲目追求多样性,而是有控制地管理多样性。它让跟班们在“离老师不太远”的范围内,尽可能地去探索不同的角落。

一句话概括:
就像带一群探险家去寻宝,最好的策略不是让他们漫无目的地散开(容易迷路),也不是让他们紧紧抱在一起(视野狭窄),而是给他们一根有弹性的绳子(KL 约束),让他们在队长周围既保持队形,又能覆盖到各个角落

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →