Optimize Wider, Not Deeper: Consensus Aggregation for Policy Optimization

该论文提出了一种名为 CAPO 的新方法,通过将计算资源从增加训练轮次(深度)转向并行优化多个不同随机种子策略并聚合其共识(宽度),利用自然参数空间的聚合机制在固定样本预算下显著提升了策略优化效率并解决了深度训练带来的路径依赖噪声问题。

Zelal Su (Lain), Mustafaoglu, Sungyoung Lee, Eshan Balachandar, Risto Miikkulainen, Keshav Pingali

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI 机器人学得更聪明、更高效的新方法,叫做 CAPO。为了让你轻松理解,我们可以把训练 AI 的过程想象成**“一群厨师在同一个厨房里,用同一批食材,尝试做同一道菜”**。

1. 传统方法(PPO)的困境:越煮越糊

目前的流行方法(叫 PPO)就像是一个厨师,拿到食材后,会反复尝试调整火候和调料(这叫“多轮迭代”或“增加深度”)。

  • 初衷是好的:厨师心想:“我多试几次,多调整几轮,味道肯定越来越好。”
  • 实际发生了什么
    • 前几轮:确实越做越好(这是“信号”,即真正的进步)。
    • 后面几轮:因为反复折腾,厨师开始手忙脚乱,加多了盐、忘了放糖,甚至把菜炒糊了。这些无意义的错误操作,论文里叫**“浪费”(Waste)**。
    • 结果:虽然厨师花了很多时间(计算资源),但菜的味道不仅没变好,反而因为“炒糊了”(过度拟合噪声)变得更难吃。这就叫**“优化深度困境”**:越深挖,噪音越大,收益越低。

2. CAPO 的妙招:人多力量大,而不是死磕到底

CAPO 的核心思想是:与其让一个厨师死磕到底,不如让一群厨师同时动手,然后大家商量出一个最好的方案。

  • 怎么做?

    1. 同样的食材:所有厨师(K 个 AI 副本)使用完全相同的一批食材(数据)。
    2. 不同的切菜顺序:唯一的区别是,每个厨师切菜、放料的顺序稍微不同(就像洗牌一样)。这导致每个厨师做出来的“半成品”略有不同。
    3. 汇聚共识:最后,大家把各自的半成品拿出来,通过一种聪明的“投票”或“平均”机制,合成一道**“共识菜”**。
  • 为什么这样更好?

    • 信号保留:所有厨师都发现了“这道菜需要多放点盐”(这是真正的进步/信号),所以共识菜里保留了这个优点。
    • 噪音抵消:厨师 A 可能手抖多放了盐,厨师 B 可能手抖少放了盐。当他们把菜混合在一起时,这些手抖的错误(浪费)互相抵消了,剩下的就是更精准的味道。

3. 两种“混合”方式:算术平均 vs. 智慧加权

论文里提到了两种把大家意见合起来的方法:

  1. 简单平均(CAPO-Avg):就像大家把菜倒进一个大锅里,每人一勺,直接搅拌均匀。这能消除一部分错误,但不够精细。
  2. 智慧加权(LogOP / 自然参数空间):这更像是一个**“美食评审团”**。
    • 如果厨师 A 对“放盐”这件事非常有把握(自信度高,方差小),他的意见权重就大。
    • 如果厨师 B 对“放糖”很犹豫(自信度低),他的意见权重就小。
    • 效果:在复杂的任务(比如让人形机器人走路,动作维度很高)中,这种**“谁自信听谁的”**方法效果惊人。在论文测试的“人形机器人”任务中,CAPO 的表现是传统方法的 8.6 倍

4. 核心结论:变宽,不要变深

这篇论文告诉我们一个反直觉的道理:

  • 旧观念:想要 AI 变强,就让它在一个任务上反复练习(增加深度/Epochs)。
  • 新观念(CAPO):想要 AI 变强,应该增加并行的人数(增加宽度/Width),而不是让一个人死磕。

打个比方
如果你要解一道很难的数学题,与其让一个人盯着题目看 100 遍(容易钻牛角尖,产生思维定势),不如让 10 个人每人看 10 遍,然后大家把思路汇总一下。这样既能集思广益,又能避免个人犯错的累积。

5. 这对我们意味着什么?

  • 省资源:不需要让机器人去现实中多跑几圈(不需要额外的环境交互),只需要在电脑里多开几个窗口并行计算。
  • 更高效:在同样的计算时间内,AI 能学到更多真本事,少犯低级错误。
  • 更稳健:这种方法对参数的调整不那么敏感,更容易上手。

总结一句话
CAPO 告诉我们,在训练 AI 时,“广撒网、多并行、求共识”“死磕到底、反复折腾” 要聪明得多。它通过让多个 AI 副本互相“纠错”,把无用的噪音过滤掉,留下了最纯粹的进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →