Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 CAPO（曲率感知策略优化）的新方法，旨在解决大语言模型（LLM）在“强化学习”训练过程中容易“翻车”的问题。

为了让你轻松理解，我们可以把训练一个会推理的大模型，想象成教一个天才学生（LLM）参加数学奥林匹克竞赛。

1. 背景：为什么现在的训练容易“翻车”？

目前的训练方法（比如 GRPO）就像是一个严厉的教练。

目标：让学生做对数学题，拿高分。
现状：为了让学生进步快，教练会加大训练强度（提高学习率、减少每次练习的题量）。
问题：这种“激进”的训练方式虽然理论上能更快出成绩，但实际上非常危险。学生（模型）很容易因为一次错误的反馈而心态崩了（论文称为“策略崩溃”），从此以后连最简单的题都不会做了，之前的努力全白费。
目前的对策：为了安全，教练们不敢加大强度，只能小心翼翼地慢慢教。这导致训练时间极长，需要海量的题目（样本），既费钱又费时间。

2. 核心创意：给教练装个“曲率雷达”

这篇论文的作者认为，问题不在于学生笨，而在于教练看不清脚下的路。

在数学优化中，有一个概念叫“曲率”（Curvature）。你可以把它想象成路面的坡度变化：

平坦的路：你可以大步流星地走（大步更新）。
陡峭的悬崖：如果你不看路直接冲过去，就会掉下去（模型崩溃）。

现有的训练方法就像是一个盲人教练，他只知道“往高分方向走”，却看不见前面是不是有悬崖。为了安全，他只能迈着小碎步走，效率极低。

CAPO 的做法：
作者给教练装了一个**“曲率雷达”。这个雷达不需要计算整条路的详细地图（这在数学上太难算，算不动），它只需要实时扫描学生脚下每一小步的“地形”**。

3. CAPO 是如何工作的？（通俗版）

CAPO 的核心机制可以比喻为**“智能过滤网”**：

生成题目：学生先做一批数学题（生成数据）。
雷达扫描：在把学生的答案交给教练打分之前，CAPO 先快速扫描一下：“这道题的解题思路会不会导致学生‘走火入魔’？”
- 如果雷达发现某道题的反馈会导致模型发生剧烈、危险的跳跃（就像前面是悬崖），CAPO 就会立刻把这道题“屏蔽”掉（Mask out）。
- 如果题目很安全，能带来平稳的进步，就保留下来让教练去更新模型。
只留精华：最后，教练只根据那些“安全且有效”的题目来调整学生的策略。

关键点：CAPO 屏蔽掉的比例非常小（不到 8%），就像是在一车苹果里挑出几个烂苹果扔掉，剩下的全是好苹果。

4. 成果：快如闪电，稳如泰山

论文的实验结果非常惊人：

稳定性：在以前会让其他方法“崩溃”的激进训练模式下，CAPO 依然稳如泰山，模型性能稳步上升。
效率：因为敢用更激进的训练方式，CAPO 达到同样的效果，只需要别人 1/30 的训练量（样本效率提升了 30 倍）。
- 比喻：以前教这个学生需要 30 本练习册，现在用 CAPO，只需要 1 本就能达到同样的水平。
成本：这个“雷达”的计算成本极低，几乎不增加额外的训练时间（只增加了不到 3% 的时间）。

5. 总结

这篇论文就像是为大模型的训练发明了一个**“防弹衣” + “加速器”**。

它不再因为害怕模型“走火入魔”而畏手畏脚，而是通过一种聪明的方法（曲率感知），实时识别并剔除那些危险的训练样本。这让大模型在数学推理等复杂任务上，能够学得更快、更稳、更省钱。

一句话总结：CAPO 让大模型训练从“盲人摸象、小心翼翼”变成了“雷达导航、全速前进”，既安全又高效。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为《STABILIZING POLICY GRADIENTS FOR SAMPLE-EFFICIENT REINFORCEMENT LEARNING IN LLM REASONING》（稳定策略梯度以实现大语言模型推理中的样本高效强化学习）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：强化学习（RL），特别是策略梯度（Policy Gradient, PG）方法，已成为提升大语言模型（LLM）推理能力（如数学解题、代码生成）的核心技术。常用的方法包括 PPO 和 GRPO。
核心痛点：
- 优化不稳定性：在 LLM 的 RL 微调中，策略梯度面临严重的优化不稳定性，导致“策略崩溃”（Policy Collapse）或灾难性更新。
- 样本效率低：为了维持训练稳定，现有实现通常采用极其保守的超参数（如极小的学习率、巨大的批量大小）。这导致训练需要生成海量的 LLM 轨迹，计算成本高昂，样本效率低下。
- 缺乏理论指导：现有的 LLM RL 优化动力学研究不足，缺乏对二阶几何信息（曲率）的显式建模和利用。
目标：开发一种能够可靠追踪底层优化动力学并利用其进行训练干预的框架，从而在更激进的更新策略下实现样本高效（Sample-Efficient）的 RL 训练。

2. 方法论 (Methodology)

论文提出了曲率感知策略优化（Curvature-Aware Policy Optimization, CAPO）框架。其核心思想是通过建模二阶几何信息来预测不稳定的更新，并通过数据选择（Data Selection）进行干预。

A. 优化景观建模 (Modeling the Optimization Landscape)

作者将 RL 优化问题形式化，显式考虑了二阶几何信息：

目标函数的二阶展开：利用泰勒展开，将目标函数 $J(\theta)$ 的变化分解为梯度项和 Hessian 矩阵（二阶导数）项。Hessian 项捕捉了目标函数的局部曲率。
策略分布的几何：引入**Fisher 信息矩阵 **(FIM) 来衡量策略分布的变化（即 KL 散度的二次近似）。FIM 捕捉了参数更新对策略分布本身的几何影响。
**计算模型 **(Computational Model)：
- 由于 LLM 参数量巨大（数十亿），直接计算完整的 Hessian 或 FIM 是不可行的。
- **最后一层模型 **(Last-Layer Model)：作者假设优化主要发生在输出层（Logits 层）的权重上，将问题简化为对最后一层权重矩阵 $\psi$ 的优化。
- 方向曲率计算：利用 Kronecker 积恒等式和梯度稀疏性（LLM 解码时只有少量 token 概率非零），提出了一个可扩展的算法，无需显式构建大矩阵即可计算方向曲率 $\Delta\psi^\top H \Delta\psi$ 和 $\Delta\psi^\top F \Delta\psi$ 。

B. CAPO 算法流程

数据收集：使用当前策略 $\pi_\theta$ 生成一批轨迹。
子集划分与预测：将批次划分为若干子集，对每个子集计算基于模型的更新步长 $\Delta\psi$ 。
曲率评估与筛选：
- 计算每个子集更新带来的目标函数变化 ( $m_H$ ) 和策略分布变化 ( $m_F$ )。
- 信任区域约束：设定阈值 $\delta_H$ (目标变化范围) 和 $\delta_F$ (策略变化上限)。
- 拒绝采样：如果某个子集的更新导致 $m_H$ 过大（目标剧烈波动）或 $m_F$ 过大（策略分布剧烈偏移），则拒绝该子集（Mask out），不将其用于实际的 LLM 策略更新。
策略更新：仅使用通过筛选的“安全”子集来计算梯度并更新 LLM 参数。

3. 主要贡献 (Key Contributions)

理论框架：首次为 LLM 的 RL 优化问题建立了包含二阶几何（Hessian 和 FIM）的随机优化形式化模型，并推导了在 CAPO 机制下策略单调改进的理论保证（Theorem 5.1）。
可扩展算法：提出了一种基于“最后一层模型”和梯度稀疏性的计算框架，使得在数十亿参数规模的 LLM 上实时计算曲率信息成为可能，且计算开销极小。
数据选择机制：设计了一种简单高效的干预机制（拒绝采样），通过剔除导致不稳定更新的样本（Token 级别），在保持训练稳定性的同时允许使用更激进的学习率。
实证突破：在标准数学推理基准上，证明了 CAPO 能在标准 RL 方法（如 GRPO）发生策略崩溃的激进设置下，依然保持稳定的训练。

4. 实验结果 (Results)

样本效率提升：在 MATH 数据集上，CAPO 在激进更新设置下（学习率提高 5 倍，批量大小减少 12 倍），相比标准保守的 GRPO，实现了高达 30 倍 的样本效率提升（即达到相同精度所需的训练完成次数更少）。
稳定性：
- 标准 GRPO 和 REINFORCE 在激进设置下迅速发生策略崩溃（准确率跌至基线以下）。
- CAPO 在整个训练过程中保持了稳定的性能提升，有效防止了崩溃。
干预程度：CAPO 的干预非常轻微，通常拒绝少于 8% 的 Token，这意味着它利用了绝大多数数据，同时保持了极高的样本效率。
计算开销：额外的曲率计算和掩码生成仅增加了不到 3% 的训练时间开销，内存占用也极低（约 2GB 显存），远低于存储参考模型进行 KL 正则化的成本。
通用性：将 CAPO 的曲率感知选择机制应用到 Dr.GRPO 和 REINFORCE 等其他算法上（Dr.CAPO, ReinCAPO），同样有效防止了策略崩溃，证明了该方法的普适性。

5. 意义与影响 (Significance)

打破保守训练范式：证明了通过显式建模优化动力学，可以打破 LLM RL 训练中必须依赖保守超参数的限制，从而大幅降低计算成本。
理论指导实践：将二阶优化理论（通常用于小模型）成功迁移并适配到 LLM 规模，为理解大模型 RL 的不稳定性提供了新的理论视角。
推动规模化后训练：CAPO 为 LLM 的规模化后训练（Post-training）提供了一种可扩展、低成本的稳定化方案，有助于进一步释放 LLM 在复杂推理任务上的潜力。
替代传统正则化：相比于 PPO 的 Clipping 或 KL 正则化（后者可能导致梯度爆炸或需要存储额外模型），CAPO 提供了一种更本质、更高效的稳定性保障机制。

总结：
这篇论文通过引入曲率感知机制，成功解决了 LLM 强化学习中策略梯度不稳定的核心难题。CAPO 算法通过“预测 - 筛选”机制，在几乎不增加计算成本的前提下，允许使用更激进的训练策略，从而实现了显著的样本效率提升（最高 30 倍），为大语言模型的高效推理训练开辟了新路径。

Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning

1. 背景：为什么现在的训练容易“翻车”？

2. 核心创意：给教练装个“曲率雷达”

3. CAPO 是如何工作的？（通俗版）

4. 成果：快如闪电，稳如泰山

5. 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

A. 优化景观建模 (Modeling the Optimization Landscape)

B. CAPO 算法流程

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

Algebraic Structure Discovery for Real World Combinatorial Optimisation Problems: A General Framework from Abstract Algebra to Quotient Space Learning