LLMs Can Learn to Reason Via Off-Policy RL

该论文提出了一种名为 OAPL 的新型离线强化学习算法,通过直接利用训练与推理策略间的滞后性而非修正它,在数学竞赛和代码生成基准测试中实现了优于现有方法的性能,同时显著减少了训练所需的生成次数并提升了测试时的扩展能力。

Daniel Ritter, Owen Oertell, Bradley Guo, Jonathan Chang, Kianté Brantley, Wen Sun

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让大型人工智能(LLM)变得更聪明、更会“推理”的新方法

为了让你轻松理解,我们可以把训练 AI 想象成教一个学生(AI)参加数学竞赛或编程比赛

1. 以前的难题:老师跟不上学生的脚步

在传统的训练方法(比如论文中提到的 GRPO)中,流程是这样的:

  • 学生(推理引擎):在考场上做题(生成答案)。
  • 老师(训练引擎):批改作业,告诉学生哪里错了,哪里对了,然后学生根据老师的反馈调整自己的思路。

问题出在哪?
在现实的大规模训练中,老师和学生往往不是“面对面”实时互动的。

  • 学生做题的速度很快,而老师批改和更新策略需要时间。
  • 这就导致了一个尴尬的局面:学生交上来的作业,是依据“旧版本”的自己做的;而老师拿着“新版本”的评分标准去批改。
  • 这就像学生用去年的教材做题,老师却用今年的新大纲来打分。这种“时间差”会导致老师给出的反馈(梯度)不准确,甚至让学生越学越糊涂(训练不稳定)。

为了解决这个问题,以前的做法是:

  1. 强行对齐:让老师和学生必须时刻同步,但这会让整个系统变慢,像两个人手牵手走路,谁快谁慢都得等对方。
  2. 打补丁(重要性采样):给学生的作业加一些复杂的“修正系数”,强行把旧答案“翻译”成新标准。但这就像给作业加了很多注脚,计算起来很麻烦,而且容易出错(方差大)。

2. 这篇论文的妙招:拥抱“时差”,换个教法

这篇论文提出了一个叫 OAPL 的新方法。它的核心思想非常反直觉:既然老师和学生之间有“时差”是不可避免的,那我们就干脆承认它,并设计一套专门利用这种“时差”的教法。

核心比喻:教练与录像回放

想象一下,OAPL 不是让教练(老师)实时盯着学生,而是:

  1. 学生(推理引擎):先自己闷头做了一大堆题(生成数据),不管教练怎么变,学生先按自己当前的水平把题做完。
  2. 教练(训练引擎):拿到这些旧题后,不再纠结“这题是你当时做的,不是现在做的”,而是直接看结果
  3. 关键创新:教练不再试图去“修正”学生的旧答案,而是直接问自己:“如果学生当时能做出这道题,他的优势(Advantage) 是多少?”
    • 论文用了一个数学技巧(KL 正则化),把“学生现在的水平”和“做题时的水平”之间的差距,变成了一种平滑的约束
    • 这就好比教练不再纠结“你当时为什么这么想”,而是直接告诉学生:“你看,如果你当时这么想,得分会更高;如果你那么想,得分会低。我们直接朝着高分的方向调整,不用管中间的时间差。”

简单说:OAPL 不再试图消除“时差”,而是把“时差”变成了训练的一部分,用一种更简单、更稳定的数学公式(最小二乘回归)来直接优化。

3. 效果如何?(实验结果)

论文通过两个主要领域证明了 OAPL 的厉害之处:

A. 数学竞赛(像奥数题)

  • 结果:OAPL 训练出来的模型,在解决高难度数学题(如 AIME, HMMT)时,比传统的 GRPO 方法更准、更稳。
  • 比喻:以前的方法(GRPO)像是一个急躁的教练,学生稍微走偏一点就拼命拉回来,结果学生容易“崩溃”(熵坍塌,思路变窄)。OAPL 像是一个有耐心的教练,允许学生有“时差”,反而让学生思路更开阔,不仅能做对一道题,还能在尝试多种解法时(Pass@k)表现更好。

B. 编程能力(写代码)

  • 结果:在代码生成任务上,OAPL 用只有别人 1/3 的数据量,就达到了和顶级开源模型(DeepCoder)一样甚至更好的效果。
  • 比喻:以前的方法需要学生做 300 道题才能学会,OAPL 只需要做 100 道题,而且这 100 道题里包含了大量的“旧题”(离群数据),但学生依然学得很好。这说明 OAPL 效率极高,省资源

4. 为什么这很重要?

  • 不再需要“完美同步”:以前为了训练 AI,必须让所有机器步调一致,这很贵、很慢。OAPL 允许机器异步工作,就像允许学生自己先做题,教练晚点再批改,大大降低了训练成本。
  • 更稳定:它不会让 AI 的思路突然变窄(熵坍塌),而是让 AI 在保持多样性的同时,越来越聪明。
  • 简单有效:它不需要复杂的“修正系数”或“剪枝”操作,就像把复杂的数学题简化成了简单的“填空题”,更容易实现。

总结

这篇论文告诉我们:教 AI 变聪明,不一定非要“手把手”实时教学。

以前的方法试图消除老师和学生之间的“时间差”,结果往往事倍功半。而 OAPL 的方法是:“既然有时间差,那我就用一种聪明的方式,直接利用这些旧数据来指导未来的方向。”

这不仅让 AI 学得更稳、更快,还大大节省了算力和时间,是 AI 推理能力训练的一次重要进步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →