Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让大型人工智能（LLM）变得更聪明、更会“推理”的新方法。

为了让你轻松理解，我们可以把训练 AI 想象成教一个学生（AI）参加数学竞赛或编程比赛。

1. 以前的难题：老师跟不上学生的脚步

在传统的训练方法（比如论文中提到的 GRPO）中，流程是这样的：

学生（推理引擎）：在考场上做题（生成答案）。
老师（训练引擎）：批改作业，告诉学生哪里错了，哪里对了，然后学生根据老师的反馈调整自己的思路。

问题出在哪？
在现实的大规模训练中，老师和学生往往不是“面对面”实时互动的。

学生做题的速度很快，而老师批改和更新策略需要时间。
这就导致了一个尴尬的局面：学生交上来的作业，是依据“旧版本”的自己做的；而老师拿着“新版本”的评分标准去批改。
这就像学生用去年的教材做题，老师却用今年的新大纲来打分。这种“时间差”会导致老师给出的反馈（梯度）不准确，甚至让学生越学越糊涂（训练不稳定）。

为了解决这个问题，以前的做法是：

强行对齐：让老师和学生必须时刻同步，但这会让整个系统变慢，像两个人手牵手走路，谁快谁慢都得等对方。
打补丁（重要性采样）：给学生的作业加一些复杂的“修正系数”，强行把旧答案“翻译”成新标准。但这就像给作业加了很多注脚，计算起来很麻烦，而且容易出错（方差大）。

2. 这篇论文的妙招：拥抱“时差”，换个教法

这篇论文提出了一个叫 OAPL 的新方法。它的核心思想非常反直觉：既然老师和学生之间有“时差”是不可避免的，那我们就干脆承认它，并设计一套专门利用这种“时差”的教法。

核心比喻：教练与录像回放

想象一下，OAPL 不是让教练（老师）实时盯着学生，而是：

学生（推理引擎）：先自己闷头做了一大堆题（生成数据），不管教练怎么变，学生先按自己当前的水平把题做完。
教练（训练引擎）：拿到这些旧题后，不再纠结“这题是你当时做的，不是现在做的”，而是直接看结果。
关键创新：教练不再试图去“修正”学生的旧答案，而是直接问自己：“如果学生当时能做出这道题，他的优势（Advantage） 是多少？”
- 论文用了一个数学技巧（KL 正则化），把“学生现在的水平”和“做题时的水平”之间的差距，变成了一种平滑的约束。
- 这就好比教练不再纠结“你当时为什么这么想”，而是直接告诉学生：“你看，如果你当时这么想，得分会更高；如果你那么想，得分会低。我们直接朝着高分的方向调整，不用管中间的时间差。”

简单说：OAPL 不再试图消除“时差”，而是把“时差”变成了训练的一部分，用一种更简单、更稳定的数学公式（最小二乘回归）来直接优化。

3. 效果如何？（实验结果）

论文通过两个主要领域证明了 OAPL 的厉害之处：

A. 数学竞赛（像奥数题）

结果：OAPL 训练出来的模型，在解决高难度数学题（如 AIME, HMMT）时，比传统的 GRPO 方法更准、更稳。
比喻：以前的方法（GRPO）像是一个急躁的教练，学生稍微走偏一点就拼命拉回来，结果学生容易“崩溃”（熵坍塌，思路变窄）。OAPL 像是一个有耐心的教练，允许学生有“时差”，反而让学生思路更开阔，不仅能做对一道题，还能在尝试多种解法时（Pass@k）表现更好。

B. 编程能力（写代码）

结果：在代码生成任务上，OAPL 用只有别人 1/3 的数据量，就达到了和顶级开源模型（DeepCoder）一样甚至更好的效果。
比喻：以前的方法需要学生做 300 道题才能学会，OAPL 只需要做 100 道题，而且这 100 道题里包含了大量的“旧题”（离群数据），但学生依然学得很好。这说明 OAPL 效率极高，省资源。

4. 为什么这很重要？

不再需要“完美同步”：以前为了训练 AI，必须让所有机器步调一致，这很贵、很慢。OAPL 允许机器异步工作，就像允许学生自己先做题，教练晚点再批改，大大降低了训练成本。
更稳定：它不会让 AI 的思路突然变窄（熵坍塌），而是让 AI 在保持多样性的同时，越来越聪明。
简单有效：它不需要复杂的“修正系数”或“剪枝”操作，就像把复杂的数学题简化成了简单的“填空题”，更容易实现。

总结

这篇论文告诉我们：教 AI 变聪明，不一定非要“手把手”实时教学。

以前的方法试图消除老师和学生之间的“时间差”，结果往往事倍功半。而 OAPL 的方法是：“既然有时间差，那我就用一种聪明的方式，直接利用这些旧数据来指导未来的方向。”

这不仅让 AI 学得更稳、更快，还大大节省了算力和时间，是 AI 推理能力训练的一次重要进步。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：LLMs Can Learn to Reason Via Off-Policy RL

1. 研究背景与问题 (Problem)

在大语言模型（LLM）的后训练（Post-training）阶段，强化学习（RL）已被证明能有效激发模型的推理能力（如 DeepSeek-R1）。然而，现有的主流 RL 算法（如 PPO 和 GRPO）通常基于**同策略（On-Policy）**假设，即训练数据必须由当前正在优化的策略生成。

在实际的大规模分布式训练架构中，这一假设往往被打破，导致数据本质上是**异策略（Off-Policy）**的。主要原因包括：

训练器与推理引擎的不一致：训练器（如 HuggingFace 模型）和推理引擎（如 vLLM）即使权重相同，由于底层 Kernel 实现差异，对同一序列输出的对数概率（log-probabilities）也可能不同。
异步训练延迟：在异步 RL 框架中，推理引擎使用的策略权重可能滞后于训练器（例如滞后数百个梯度步），导致生成的数据并非来自当前策略。

现有解决方案的局限性：

重要性采样（Importance Sampling, IS）：试图通过计算概率比率来修正偏差，但这会引入额外的方差，且当行为策略与目标策略差异巨大时，IS 变得不可靠。
修改推理引擎：试图缩小训练器与推理引擎的差距，但这会降低推理速度，且无法完全消除异步训练带来的延迟。

核心问题：是否必须依赖同策略算法进行 RL 后训练？能否设计出简单、可扩展且能直接利用异策略数据的 RL 算法？

2. 方法论：OAPL (Methodology)

作者提出了 OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference policy)，一种全新的、完全基于异策略的 RL 算法。

核心思想

OAPL 将训练器策略 $\pi$ 与推理引擎策略 $\pi_{vllm}$ 之间的不匹配视为一个 KL 正则化 RL 问题。其目标是在最大化奖励的同时，最小化与当前推理策略 $\pi_{vllm}$ 的 KL 散度。

数学推导

目标函数：
$\max_{\pi} \mathbb{E}_{x,y \sim \pi} [r(x, y)] - \beta \text{KL}(\pi || \pi_{vllm})$
该问题的最优策略 $\pi^*$ 具有闭式解：
$\pi^*(y|x) \propto \pi_{vllm}(y|x) \exp(r(x, y)/\beta)$
优势函数估计：
利用上述闭式解，作者推导出最优优势函数 $A^*(x, y)$ 与价值函数 $V^*(x)$ 的关系：
$\beta \ln \frac{\pi^*(y|x)}{\pi_{vllm}(y|x)} = r(x, y) - V^*(x) = A^*(x, y)$
其中， $V^*(x)$ 可以通过从 $\pi_{vllm}$ 采样的 $G$ 个轨迹（rollouts）进行估计：
$\hat{V}^*(x) = \beta \ln \frac{1}{G} \sum_{i=1}^G \exp(r(x, y_i)/\beta)$
优化目标（损失函数）：
基于上述关系，OAPL 定义了一个平方回归损失函数，直接利用来自 $\pi_{vllm}$ 的异策略数据进行训练，无需重要性采样：
$\min_{\pi} \sum_{x} \sum_{i=1}^G \left( \beta \ln \frac{\pi(y_i|x)}{\pi_{vllm}(y_i|x)} - (r(x, y_i) - \hat{V}^*(x)) \right)^2$

算法流程 (Algorithm 1)

同步：初始化时同步训练器 $\pi$ 和推理引擎 $\pi_{vllm}$ 。
异步数据生成： $\pi_{vllm}$ 异步生成数据并存入缓冲区 $D$ 。
异步更新：训练器 $\pi$ 使用缓冲区 $D$ 中的数据，通过梯度下降最小化上述平方损失函数。
周期性同步：每 $L$ $L$ 次迭代（例如 $L=50$ $L = 50$ 或 $L=100$ $L = 100$ ），同步 $\pi$ $π$ 和 $\pi_{vllm}$ $π_{v l l m}$ 的权重，并清空缓冲区。
- 在同步间隔内，算法完全处于异策略状态， $\pi_{vllm}$ 既负责生成数据，也作为 KL 正则化的参考策略。

3. 关键贡献 (Key Contributions)

理论突破：证明了在 LLM 后训练中，同策略学习并非必要。OAPL 通过 KL 正则化将异策略问题转化为简单的平方回归问题，无需重要性采样（IS）或复杂的裁剪（Clipping）操作。
算法创新：提出了 OAPL 算法，能够容忍极大的策略延迟（Policy Lag）。实验表明，即使在训练策略与推理策略相差 400 个梯度步（比现有方法高出 100 倍）的情况下，算法依然稳定有效。
效率提升：
- 样本效率：在代码生成任务中，OAPL 仅使用 DeepCoder 训练所需样本量的 1/3（约 20 万 vs 65 万）就达到了同等或更好的性能。
- 训练效率：支持完全异步训练，消除了推理引擎等待训练器更新的瓶颈。
性能表现：在数学竞赛和代码生成基准测试中，OAPL 不仅超越了 GRPO 基线，还展现了优异的 Pass@k 测试时扩展能力（Test-time Scaling），即随着采样次数 $k$ 增加，性能提升更显著，且避免了熵崩溃（Entropy Collapse）。

4. 实验结果 (Results)

数学推理基准 (Competition Math)

数据集：AIME 2025, HMMT 2025 (Feb & Nov), BRUMO 2025。
结果：
- OAPL 在所有 Pass@k 指标（Pass@1, Pass@5, Pass@10）上均优于 GRPO 基线（带重要性采样）。
- 稳定性：训练曲线显示 OAPL 收敛更稳定，且序列熵（Sequence Entropy）未发生崩溃，而 GRPO 的熵在训练后期显著下降。
- 延迟鲁棒性：即使将同步间隔 $L$ 设置为 100（极大延迟），OAPL 仍能保持稳定学习。

代码生成基准 (Code Generation)

数据集：LiveCodeBench v5。
对比对象：DeepCoder（基于 GRPO 训练，使用了多种启发式规则）。
结果：
- 性能：OAPL 训练的模型在 Pass@k 指标上匹配甚至略优于 DeepCoder。
- 样本效率：DeepCoder 使用了约 650K 样本，OAPL 仅用约 200K 样本即达到同等效果，效率提升约 3 倍。
- 扩展性：OAPL 在 Pass@k 随 $k$ 增大的扩展曲线上表现更好，证明了其生成的多样性对测试时搜索（Test-time Search）更有益。

5. 意义与展望 (Significance)

重新定义 RL 后训练范式：OAPL 挑战了“必须保持同策略”的传统观念，表明在大规模分布式 LLM 训练中，拥抱异策略特性可以带来更高的效率和稳定性。
工程落地价值：OAPL 无需修改推理引擎（如 vLLM），无需复杂的 IS 权重计算或裁剪，实现简单且易于部署。它允许训练器和推理引擎完全解耦，极大地提升了分布式训练系统的吞吐量和资源利用率。
未来方向：该方法为利用离线数据（Offline Data）、人类反馈数据以及更复杂的价值函数学习（Value Learning）提供了新的思路，有助于构建更高效、更强大的推理型 LLM。

总结：OAPL 通过利用 KL 正则化的闭式解，将复杂的异策略 RL 问题简化为稳定的平方回归问题，在数学推理和代码生成任务中实现了比现有 SOTA 方法（GRPO）更高的样本效率和训练稳定性，是 LLM 后训练领域的一项重要进展。

LLMs Can Learn to Reason Via Off-Policy RL