Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

本文通过提出平衡聚合方法,在可验证奖励的 GRPO 风格强化学习中识别并解决了聚合偏差问题,该方法在重新组合之前分别对正负响应的 token 级梯度进行平均,从而提升了在推理和代码基准测试中的训练稳定性与性能。

原作者: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

以下是论文《Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO》(平衡聚合:理解并修复 GRPO 中的聚合偏差)的通俗解释,辅以生动的类比。

大局观:教 AI 解谜题

想象一下,你正在训练一个机器人去解决数学问题或编写代码。你给它一个提示,它尝试生成一个答案。为了教导它,你使用了一种名为**可验证奖励强化学习(RLVR)**的方法。

把这想象成一场游戏节目。机器人(AI)针对同一个问题生成多个不同的答案(回复)。一位裁判(一个简单的计算机程序)会检查这些答案:

  • 如果答案正确,机器人会得到一个“大拇指”(正向奖励)。
  • 如果答案错误,机器人会得到一个“倒大拇指”(负向奖励)。

目标是教导机器人生成更多“大拇指”答案,减少“倒大拇指”答案。这篇论文聚焦于一种名为GRPO的具体训练方法,它因简单且有效而广受欢迎。

问题所在:如何统计票数

论文解决的核心问题是一个微妙但至关重要的问题:当机器人生成一组答案时,我们该如何计算要从中吸取的“平均教训”?

机器人可能一次生成 16 个答案。有些很短(5 个词),有些很长(500 个词)。有些是正确的,有些是错误的。训练算法需要将所有这些独立的词组合成一个大的“更新”,以改进机器人的“大脑”。

人们一直采用两种主要方法,但论文指出这两种方法都存在一个隐藏的缺陷:

1. “字数统计”法(Token Aggregation,词元聚合)

  • 工作原理: 统计每个答案中的每一个词(词元),然后将它们全部平均。
  • 缺陷(“冗长反派”): 想象一群学生参加考试。
    • 学生 A 答对了,但写了一个非常简短、简洁的解释(10 个词)。
    • 学生 B 答错了,但写了一篇冗长、啰嗦的长文(500 个词)。
    • 如果只按字数统计,学生 B 的错误答案在平均值中的“权重”是学生 A 正确答案的 50 倍。
    • 结果: AI 会感到困惑。它认为那些冗长的错误答案更重要,因为它们占据了更多空间。这被称为**“符号 - 长度耦合”(Sign-Length Coupling)**。答案的长度意外地改变了教训的符号(正向或负向)。

2. “按人”法(Sequence Aggregation,序列聚合)

  • 工作原理: 先分别计算每个答案的平均教训,然后再将这些答案的平均值进行平均。
  • 缺陷(“懒惰选民”): 使用同样的学生例子:
    • 学生 A(短,正确)获得 1 票。
    • 学生 B(长,错误)获得 1 票。
    • 结果: 这解决了“冗长反派”的问题。但现在,它将一个 10 词的答案与一个 500 词的答案完全等同对待。如果 AI 从长篇详细的解释中学到了很多,这种方法就会忽略这种额外的努力。它“降低”了长回复的权重,将它们视为与短回复一样简单。

解决方案:“平衡聚合”(BA)

作者提出了一种名为**平衡聚合(Balanced Aggregation, BA)**的新方法。它就像一位聪明的裁判,修正了上述两种方法的缺陷。

工作原理:

  1. 排序答案: 首先,裁判将答案分为两堆:“好”堆(大拇指)和“坏”堆(倒大拇指)。
  2. 堆内计数: 在“好”堆内部,统计所有词并求平均。在“坏”堆内部,统计所有词并求平均。
  3. 平衡堆: 最后,将这两堆合并。但这里有个窍门:他们不是随机混合。他们确保“好”堆和“坏”堆对最终决策具有相等的影响力,无论每堆中有多少词。

类比:
想象一个城镇议会正在投票决定是否新建一个公园。

  • 旧方法 1(字数统计): 说话时间最长的人获得最多票数,即使他们是错的。
  • 旧方法 2(按人): 每个人只有一票,即使一个人写了一份 50 页的报告,而另一个人只说了“是”。
  • 平衡聚合: 议会分为“支持建公园”和“反对建公园”两组。他们在组内平均各自的论点。然后,在最终决策中,给予“支持组”和“反对组”相等的权重,确保论点的长度不会扭曲结果。

他们发现了什么?

研究人员在两个不同的 AI 模型(Qwen2.5-Math-7B 和 Qwen3-1.7B)上,使用数学和编程数据集测试了这种新方法。

  1. 稳定性是关键: 旧方法在开始时往往表现良好,但在训练后期往往会崩溃或变得不稳定。当 AI 开始编写非常长的错误答案时,“字数统计”法尤其不稳定。
  2. 更好的结果: 平衡聚合方法始终产生更好的最终分数。它更稳定,意味着 AI 能够稳步学习,而不会出现性能的剧烈波动。
  3. 为何重要: 论文表明,训练 AI 的“最佳”方式取决于答案长度的变化程度。
    • 如果答案长度差异巨大,“字数统计”法可能风险很大。
    • 如果“好”答案和“坏”答案的长度差异巨大,“按人”法可能不公平。
    • 平衡聚合两种情况下都表现良好,因为它修正了每种方法的具体偏差。

结语

论文得出结论:在 AI 训练中如何“混合原料”(聚合数据)不仅仅是一个微小的技术细节;它是一个主要的設計选择,决定了 AI 是有效学习还是陷入困惑。通过简单地在平均之前将“好”样本和“坏”样本分开,作者创造了一种更稳健、更稳定、更有效的教 AI 推理和编程的方法。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →