Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型（LLM）的“强化学习”训练过程去魅（Demystify），揭示了一个被大家误解已久的秘密。

简单来说，这篇论文的核心观点是：大家一直以为像 GRPO（一种流行的训练算法）必须是“现学现卖”（On-policy，即只用最新的数据训练），但实际上它骨子里就是一个“旧书新读”（Off-policy，即可以利用旧数据、甚至不同策略产生的数据）的算法。

为了让你更容易理解，我们可以用**“教学生做题”和“教练带队员”**的比喻来拆解这篇论文。

1. 背景：为什么我们需要“旧书新读”？

想象一下，你是一位教练（AI 模型），正在训练一群学生（大语言模型）去解数学题。

传统的做法（On-policy / 现学现卖）：
教练必须让学生立刻做新题，做完马上批改，然后立刻根据这次的表现调整教学方法。如果学生做错了，教练马上改；如果做对了，教练马上强化。
- 缺点： 这太慢了！如果学生做题很慢，或者教练批改很慢，整个训练过程就会卡住。而且，如果教练想利用以前学生做过的旧题（旧数据）来复习，传统理论说“不行，因为那是旧方法教出来的，现在不适用了”。
现实的需求（Off-policy / 旧书新读）：
在现实中，我们希望能批量处理数据。比如，让学生先做一堆题（不管是谁教的），然后教练统一拿这些旧题来复习、调整策略。这样效率更高，还能利用以前积累的经验。
- 痛点： 以前的理论认为，像 GRPO 这种算法，如果用了旧数据，就会“走火入魔”，导致模型学坏。所以大家不敢大胆用旧数据。

2. 核心发现：GRPO 其实是个“伪装者”

这篇论文的作者们做了一件很酷的事：他们重新推导了 GRPO 的数学公式，发现GRPO 根本不需要假设数据必须是“最新鲜”的。

比喻：小组讨论法
GRPO 的工作方式是：给同一个问题，让学生 A、B、C、D 分别写出答案，然后给每个答案打分。

旧观点： 必须用“最新”的 A、B、C、D 写的，因为他们的水平是“当前”的。
新观点（论文发现）： 只要把 A、B、C、D 的答案放在一起互相比较（比如：A 比平均分高，就奖励 A；B 比平均分低，就惩罚 B），不管这些答案是谁写的、什么时候写的，这个“互相比较”的逻辑本身是成立的！

这就好比：老师批改作业，只要把全班同学的作业放在一起，谁比平均分高就表扬谁，谁比平均分低就批评谁。至于这些作业是今天写的，还是上周写的，或者是隔壁班写的，只要大家是在同一个标准下比较，这个“相对优势”的逻辑就依然有效。

结论： GRPO 本质上就是一个**“离群策略”（Off-policy）**算法，它天生就能处理旧数据，只是以前大家没意识到这一点。

3. 打破三个迷思（Myths）

既然 GRPO 能处理旧数据，那以前大家为了“防止它学坏”而加的各种限制，是不是很多都是多余的？论文指出了三个常见的迷思：

迷思一：重要性采样（Importance Sampling）是救命稻草？

旧观念： 因为用了旧数据，必须给旧数据打个“折扣”（重要性采样），否则模型会学偏。
新真相： 论文发现，“裁剪”（Clipping）才是关键，重要性采样其实没那么重要。
比喻： 想象教练在纠正学生。以前大家觉得，如果学生用旧方法做题，教练得小心翼翼地计算“这个错误有多少是旧方法造成的”（重要性采样）。
但论文发现，教练只需要**“划定一个安全区”**（裁剪）：只要学生的改变幅度别太大（比如别从“完全乱写”突然变成“天才”），直接教就行。
- 惊喜发现： 甚至可以把安全区划得很大（比如允许改变幅度很大），模型反而学得更快、更稳！以前大家把安全区划得太小（比如只允许 20% 的变化），反而限制了模型进步。

迷思二：Kimi 和 Meta 的新算法是全新的发明？

旧观念： Kimi 的 OPMD 和 Meta 的 AsymRE 是两种完全不同的新算法，有独特的数学原理。
新真相： 它们其实就是**“标准 GRPO + 一个正则化项（Regularization）”**。
比喻： 就像有人发明了一种新饮料，说是“加了神秘香料”。论文发现，这其实就是“可乐 + 一点点糖”。那个“神秘香料”其实就是**“正则化”**（防止模型学得太疯，保持一点克制）。把它们还原成“基础版 + 克制版”，大家就明白它们为什么有效了。

迷思三：数据筛选是“玄学”？

旧观念： 训练时，有些算法会“扔掉”低分答案，或者“给高分答案加倍权重”。以前大家觉得这是经验之谈（Heuristic），没有理论支撑。
新真相： 在“离群策略”的视角下，这完全合理！
比喻： 既然我们是用“小组比较”来学习，那么扔掉那些特别差的“拖后腿”答案，或者重点表扬那些特别好的“学霸”答案，不仅能提高效率，还能让模型学得更精准。这不再是玄学，而是有数学依据的“数据加权策略”。

4. 这对我们意味着什么？

这篇论文就像给 AI 训练界发了一张**“通行证”**：

更灵活： 以后训练大模型，不需要死守着“必须用最新数据”的教条。我们可以大胆地利用旧数据、混合数据，甚至把训练过程做得更异步（一边生成数据，一边训练，不用等）。
更高效： 既然“裁剪范围”可以更大，我们可以让模型学得更激进、更快，不用担心它“学坏”。
更简单： 以前为了处理旧数据，需要搞很多复杂的数学修正（如重要性采样）。现在发现，只要控制好“裁剪”和“数据加权”，就能达到很好的效果，算法设计可以变得更简洁。

总结

这篇论文告诉我们：GRPO 并不是一个娇贵的“现学现卖”算法，它其实是一个强壮的“旧书新读”高手。

以前我们因为害怕它“学坏”，给它戴上了很多紧箍咒（小裁剪范围、复杂的重要性采样）。现在作者们通过数学推导证明，只要给它戴上“安全头盔”（正则化/裁剪），并给它“挑好教材”（数据加权），它就能在更广阔、更混乱的数据海洋里，跑得更快、更稳。

这不仅解开了很多算法的“黑盒”，也为未来设计更高效、更强大的 AI 训练系统打开了新的大门。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《Group-Relative Reinforce is Secretly an Off-Policy Algorithm: Demystifying Some Myths about GRPO and Its Friends》（组相对 REINFORCE 实为离线策略算法：揭秘 GRPO 及其相关算法的迷思）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：大语言模型（LLM）的强化学习（RL）正在快速发展，从 RLHF 到推理导向的 RL，再到智能体（Agentic）RL。然而，实际部署中常面临数据收集与训练速度不匹配、奖励反馈延迟、环境查询成本高或数据来自不同策略（Off-policy）等挑战。
核心矛盾：目前主流的 LLM-RL 算法（如 PPO 和 GRPO）本质上是**On-policy（在线策略）**算法。它们依赖当前策略生成的新鲜数据来保证梯度估计的无偏性。虽然它们通过重要性采样（Importance Sampling, IS）和截断（Clipping）处理一定程度的 Off-policyness，但在面对严重的数据分布偏移或离线数据时，往往缺乏理论支撑，需要特设（Ad-hoc）的分析。
现有误区：业界普遍认为 GRPO 等算法的有效性主要归功于重要性采样来校正分布偏移，且截断范围必须很小以维持稳定性。
研究目标：本文旨在从第一性原理出发，重新推导 Group-Relative REINFORCE（即 GRPO 的核心机制），揭示其原生的 Off-policy 解释，并以此统一和重新解释现有的 RL 算法，提出更有效的 Off-policy 设计原则。

2. 核心方法论 (Methodology)

作者提出了一种全新的视角，将 Group-Relative REINFORCE 解释为一种Off-policy 算法，其推导过程分为三步：

构建代理目标与一致性条件：
- 定义了一个 KL 正则化的代理目标函数： $\max_\theta J(\theta; \pi_{\theta_t}) = \mathbb{E}[r] - \tau \cdot D_{KL}(\pi_\theta \| \pi_{\theta_t})$ 。
- 该目标的最优解满足特定的成对一致性条件（Pairwise Consistency Condition）：对于任意两个响应 $y_1, y_2$ ，其概率比与奖励差及 KL 散度相关。
- 关键点：该推导不假设训练数据 $\{y_i\}$ 必须来自当前策略 $\pi_\theta$ ，从而打破了 On-policy 的限制。
构建有限样本的代理损失：
- 为了在有限样本（一组 Prompt 对应的 $K$ 个响应）上满足上述一致性条件，作者定义了一个均方误差（MSE）形式的代理损失函数。该损失函数衡量了任意两个响应在“奖励 - 对数概率”空间中的差异。
单步梯度下降推导：
- 对上述代理损失函数在 $\theta = \theta_t$ 处取一步梯度。
- 核心发现：经过数学推导，这一步梯度更新恰好等价于 Group-Relative REINFORCE 的更新规则（即使用组内平均奖励作为基线）。
- 结论：GRPO 本质上是在最小化一个正则化的代理损失，而非仅仅是在做无偏的梯度估计。正则化系数 $\tau$ 控制了更新步长。

3. 主要贡献与发现 (Key Contributions)

基于上述 Off-policy 视角，论文提出了两个增强 REINFORCE 的通用原则，并以此解构了多个算法：

原则一：正则化策略更新 (Regularize Policy Updates)

发现 F1：GRPO 中截断（Clipping）的作用大于重要性采样（IS）。
- 实验表明，在 GRPO 中移除重要性采样（IS），仅保留截断机制（REC-ONESIDE-NOIS），性能几乎不受影响。
- 反直觉发现：传统的窄截断范围（如 $\epsilon=0.2$ ）并非必须。扩大截断范围（如 $\epsilon \in [0.6, 2.0]$ ）不仅能保持稳定性，还能显著加速收敛。截断在此处主要起正则化作用，防止策略更新过大，而非仅仅为了校正 IS 权重。
发现 F2：重新解读 OPMD 和 AsymRE。
- Kimi 的 OPMD：被重新解释为“标准 REINFORCE 损失 + 均方正则化损失”，而非原论文中复杂的镜像下降推导。
- Meta 的 AsymRE：被解释为在优势函数中调整基线，本质上等同于在 REINFORCE 损失上增加了一个 KL 正则化项（鼓励模仿旧策略）。

原则二：主动塑造数据分布 (Actively Shape Data Distribution)

发现 F3：数据加权策略的合理性。
- 论文提出可以通过加权样本对（Pairwise weighting）或点加权（Pointwise weighting）来优化训练。
- RED-DROP：丢弃低奖励样本（负样本）。在 Off-policy 视角下，这是合理的，因为负梯度可能导致熵崩溃，且 Off-policy 理论允许有偏估计。
- RED-WEIGHT：对高奖励样本进行加权。这被解释为一种正则化，鼓励模型模仿高奖励轨迹，而非保守地模仿所有轨迹。

4. 实验结果 (Results)

作者在 Trinity-RFT 框架下，使用 Qwen、Llama 等模型在 GSM8k、MATH、Guru-Math、ToolACE 等数据集上进行了广泛实验：

截断范围的影响：在 GSM8k 和 ToolACE 上，使用大截断范围（0.6, 2.0）的无 IS 算法（REC-ONESIDE-NOIS）在多种 Off-policy 设置（包括同步间隔大、同步偏移大、纯离线数据）下，均表现出比标准 GRPO 更快的收敛速度和相当的稳定性。
数据加权的有效性：RED-DROP 和 RED-WEIGHT 算法在 On-policy 和 Off-policy 设置下均优于或持平于 GRPO。特别是在 Guru-Math 和 MATH 数据集上，RED-WEIGHT 在获得更高奖励的同时，保持了与初始策略更小的 KL 距离。
算法统一性验证：实验验证了 OPMD 和 AsymRE 在 Off-policy 场景下的有效性，并证实了它们作为正则化形式的理论解释。
GSPO 的推测：初步实验表明，Group Sequence Policy Optimization (GSPO) 中的序列级重要性采样可能也是非必要的，其有效性同样源于序列级截断的正则化作用。

5. 意义与影响 (Significance)

理论突破：首次从第一性原理推导证明了 Group-Relative REINFORCE 具有原生的 Off-policy 解释，打破了"REINFORCE 必须是 On-policy"的固有认知。
去魅（Demystification）：澄清了 GRPO 等算法中重要性采样和截断的真实作用。指出截断是正则化的核心，而重要性采样在 LLM-RL 中往往是非必要的，甚至可能引入不必要的方差。
指导实践：
- 为 Off-policy LLM-RL 提供了可操作的设计原则（正则化 + 数据重塑）。
- 建议在实际工程中可以尝试扩大截断范围以提升训练效率。
- 证明了数据筛选（如丢弃负样本）和加权策略在理论上的合理性，无需依赖复杂的 Ad-hoc 分析。
基础设施友好：提出的解释和算法（如基于截断的 REINFORCE 变体）不需要像 REBEL 或 CoPG 那样复杂的成对数据对齐，更容易在现有的大规模 RL 基础设施（如 vLLM, Trinity-RFT）上高效实现。

总结：这篇论文通过理论重构，将 GRPO 及其变体从“受限于 On-policy 假设的启发式算法”提升为“具有坚实 Off-policy 理论基础的正则化优化方法”，为未来大模型的高效、稳定强化学习训练开辟了新路径。