原作者： Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

发布于 2026-05-07

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

以下是论文《Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO》（平衡聚合：理解并修复 GRPO 中的聚合偏差）的通俗解释，辅以生动的类比。

大局观：教 AI 解谜题

想象一下，你正在训练一个机器人去解决数学问题或编写代码。你给它一个提示，它尝试生成一个答案。为了教导它，你使用了一种名为**可验证奖励强化学习（RLVR）**的方法。

把这想象成一场游戏节目。机器人（AI）针对同一个问题生成多个不同的答案（回复）。一位裁判（一个简单的计算机程序）会检查这些答案：

如果答案正确，机器人会得到一个“大拇指”（正向奖励）。
如果答案错误，机器人会得到一个“倒大拇指”（负向奖励）。

目标是教导机器人生成更多“大拇指”答案，减少“倒大拇指”答案。这篇论文聚焦于一种名为GRPO的具体训练方法，它因简单且有效而广受欢迎。

问题所在：如何统计票数

论文解决的核心问题是一个微妙但至关重要的问题：当机器人生成一组答案时，我们该如何计算要从中吸取的“平均教训”？

机器人可能一次生成 16 个答案。有些很短（5 个词），有些很长（500 个词）。有些是正确的，有些是错误的。训练算法需要将所有这些独立的词组合成一个大的“更新”，以改进机器人的“大脑”。

人们一直采用两种主要方法，但论文指出这两种方法都存在一个隐藏的缺陷：

1. “字数统计”法（Token Aggregation，词元聚合）

工作原理： 统计每个答案中的每一个词（词元），然后将它们全部平均。
缺陷（“冗长反派”）： 想象一群学生参加考试。
- 学生 A 答对了，但写了一个非常简短、简洁的解释（10 个词）。
- 学生 B 答错了，但写了一篇冗长、啰嗦的长文（500 个词）。
- 如果只按字数统计，学生 B 的错误答案在平均值中的“权重”是学生 A 正确答案的 50 倍。
- 结果： AI 会感到困惑。它认为那些冗长的错误答案更重要，因为它们占据了更多空间。这被称为**“符号 - 长度耦合”（Sign-Length Coupling）**。答案的长度意外地改变了教训的符号（正向或负向）。

2. “按人”法（Sequence Aggregation，序列聚合）

工作原理： 先分别计算每个答案的平均教训，然后再将这些答案的平均值进行平均。
缺陷（“懒惰选民”）： 使用同样的学生例子：
- 学生 A（短，正确）获得 1 票。
- 学生 B（长，错误）获得 1 票。
- 结果： 这解决了“冗长反派”的问题。但现在，它将一个 10 词的答案与一个 500 词的答案完全等同对待。如果 AI 从长篇详细的解释中学到了很多，这种方法就会忽略这种额外的努力。它“降低”了长回复的权重，将它们视为与短回复一样简单。

解决方案：“平衡聚合”（BA）

作者提出了一种名为**平衡聚合（Balanced Aggregation, BA）**的新方法。它就像一位聪明的裁判，修正了上述两种方法的缺陷。

工作原理：

排序答案： 首先，裁判将答案分为两堆：“好”堆（大拇指）和“坏”堆（倒大拇指）。
堆内计数： 在“好”堆内部，统计所有词并求平均。在“坏”堆内部，统计所有词并求平均。
平衡堆： 最后，将这两堆合并。但这里有个窍门：他们不是随机混合。他们确保“好”堆和“坏”堆对最终决策具有相等的影响力，无论每堆中有多少词。

类比：
想象一个城镇议会正在投票决定是否新建一个公园。

旧方法 1（字数统计）： 说话时间最长的人获得最多票数，即使他们是错的。
旧方法 2（按人）： 每个人只有一票，即使一个人写了一份 50 页的报告，而另一个人只说了“是”。
平衡聚合： 议会分为“支持建公园”和“反对建公园”两组。他们在组内平均各自的论点。然后，在最终决策中，给予“支持组”和“反对组”相等的权重，确保论点的长度不会扭曲结果。

他们发现了什么？

研究人员在两个不同的 AI 模型（Qwen2.5-Math-7B 和 Qwen3-1.7B）上，使用数学和编程数据集测试了这种新方法。

稳定性是关键： 旧方法在开始时往往表现良好，但在训练后期往往会崩溃或变得不稳定。当 AI 开始编写非常长的错误答案时，“字数统计”法尤其不稳定。
更好的结果： 平衡聚合方法始终产生更好的最终分数。它更稳定，意味着 AI 能够稳步学习，而不会出现性能的剧烈波动。
为何重要： 论文表明，训练 AI 的“最佳”方式取决于答案长度的变化程度。
- 如果答案长度差异巨大，“字数统计”法可能风险很大。
- 如果“好”答案和“坏”答案的长度差异巨大，“按人”法可能不公平。
- 平衡聚合在两种情况下都表现良好，因为它修正了每种方法的具体偏差。

结语

论文得出结论：在 AI 训练中如何“混合原料”（聚合数据）不仅仅是一个微小的技术细节；它是一个主要的設計选择，决定了 AI 是有效学习还是陷入困惑。通过简单地在平均之前将“好”样本和“坏”样本分开，作者创造了一种更稳健、更稳定、更有效的教 AI 推理和编程的方法。

Each language version is independently generated for its own context, not a direct translation.

技术摘要：平衡聚合：理解与修复 GRPO 中的聚合偏差

问题陈述

可验证奖励强化学习（RLVR）已成为增强大语言模型（LLMs）推理与代码生成能力的标准范式，其中群相对策略优化（GRPO）因其简洁性及无需独立评论家（critic）而成为广泛采用的方法。然而，GRPO 内部的一个关键设计选择仍未得到充分探索：即采样组内 token 级策略梯度项的聚合规则。

当前实践通常分为两类：

序列聚合：标准 GRPO 的默认设置，即先对每个响应内的 token 贡献取平均，再对各个响应取平均。这种方法隐式地对较长响应进行降权，因为无论 token 数量多少，每个序列的贡献权重均相等。
Token 聚合：由 DAPO 和 Dr.GRPO 等近期工作提倡，直接对采样组内所有 token 的截断目标函数取平均。

本文指出，这两种规则会引发系统性的不同优化偏差：

Token 聚合引入了符号 - 长度耦合偏差。正样本（优势值 > 0）与负样本（优势值 < 0）的相对贡献不仅取决于其归一化优势值，还取决于其平均响应长度。如果正负响应的长度分布不同，Token 聚合可能会系统性地放大某一侧的更新，导致训练动态不稳定。
序列聚合通过赋予每个响应相等权重来消除符号 - 长度耦合。然而，它引入了序列等权重偏差，即由于损失是按序列而非按 token 平均计算的，较长响应被隐式降权。

没有任何一种方法是普遍最优的；每种方法的有效性取决于响应长度的方差以及正负样本之间的长度差距。

方法论：平衡聚合（BA）

为解决这些偏差之间的张力，作者提出了平衡聚合（BA），这是一种可即插即用替换 GRPO 风格 RLVR 中聚合步骤的简单方案。

BA 的核心机制包含三个步骤：

划分：根据归一化优势值的符号，将采样的响应组划分为两个子集：正性子集（ $S_+$ ）和负性子集（ $S_-$ ）。
子集内平均：分别在各子集内计算 token 级均值。这保留了符号组内的 token 级平均特性，避免了标准序列聚合中强烈的每序列等权重效应。
子集间组合：使用与各子集中序列数量成比例的权重组合两个子集的损失（正性子集权重为 $k/G$ ，负性子集权重为 $(G-k)/G$ ，其中 $k$ 为正序列的数量）。

理论依据：
在标准的二元奖励 GRPO 设置中，这种特定的加权方案确保 BA 产生与序列聚合相同的符号间平衡前置因子（ $\sqrt{k(G-k)}/G$ ）。因此，BA 保留了序列聚合的符号平衡特性（消除符号 - 长度耦合），同时避免了惩罚长响应的强序列等权重效应。本文还针对非二元奖励提供了广义公式，其中权重由优势值总量而非序列数量决定。

主要贡献

聚合偏差的统一分析：本文提供了形式化分析，证明 GRPO 中的损失聚合并非无害的实现细节。它刻画了 Token 聚合中特定的“符号 - 长度耦合”偏差，以及序列聚合中的“序列等权重”偏差。
平衡聚合（BA）：提出 BA 作为一种简单、即插即用的替代方案，解耦了符号与长度偏差。它在符号组内进行 token 级平均，但基于序列数量对组间进行平衡。
实证验证与诊断标准：大量实验表明，Token 聚合与序列聚合的相对有效性受响应长度方差及正负长度差距的支配。本文证明，BA 在不同模型和数据集上始终优于两种基线方法。

实验结果

作者在两个训练数据集（DAPO-17k 和 Polaris）上，使用 Qwen2.5-Math-7B 和 Qwen3-1.7B 对 BA 进行了评估。性能在六个基准测试中进行衡量：Math-500、AIME 2024、AIME 2025、OlympicBench、Minerva-MATH 和 LiveCodeBench。

主要发现：

训练稳定性：Token 聚合往往导致训练后期性能严重下降（峰值到最终步骤的跌幅较大），而 BA 保持了稳健的最终步骤准确率。
模型依赖的动态特性：
- 在 Qwen2.5-Math-7B（表现出较大的响应长度变化）上，Token 聚合初期优于序列聚合，但 BA 在峰值和最终步骤性能上均超越了两者。
- 在 Qwen3-1.7B（表现出较大的正负长度差距）上，序列聚合比 Token 聚合更稳定，但 BA 再次实现了最高的峰值和最终步骤指标。
损失动态：策略梯度损失轨迹的分析显示，由于符号 - 长度耦合，Token 聚合会导致损失大幅偏离零值，而 BA 和序列聚合则保持在零值附近稳定。
整体性能：在所有测试场景中，与标准的 Token 聚合和序列聚合相比，BA 始终提供更强的最终性能和更好的训练稳定性。

意义与主张

本文主张，聚合是 GRPO 风格 RLVR 中的一级设计选择，而非次要的实现细节。该工作的意义在于：

稳定性：BA 提供了更稳健的优化信号，防止了 Token 聚合在后期阶段常出现的训练崩溃。
普适性：与仅在特定长度分布条件下表现良好的 Token 聚合或序列聚合不同，BA 在不同模型规模和数据集上均具有鲁棒性。
设计原则：该工作强调，有效的 RLVR 需要在平衡符号间权重（防止偏差）与保留符号内 token 信息（保留长响应的信号）之间取得平衡。

作者得出结论：平衡聚合为解决 GRPO 中固有的权衡问题提供了一种简单而有效的方案，从而在推理和编码任务中实现了更稳定的优化和更优的最终模型性能。

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO