Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 ReLIFT 的新方法，旨在让大型语言模型（LLM）变得更聪明，特别是在解决复杂的数学和逻辑问题时。

为了让你轻松理解，我们可以把训练 AI 模型想象成培养一名学生，而 ReLIFT 则是一种**“混合式特训营”**的教学策略。

1. 现有的两种“老师”及其局限

在 ReLIFT 出现之前，训练 AI 主要有两种方法，就像两种不同风格的老师：

老师 A：强化学习（RL）——“试错教练”
- 怎么教： 让学生自己做题，做对了给奖励，做错了就扣分。学生通过不断尝试来摸索规律。
- 擅长： 对于学生已经会做或者稍微努力就能做对的题目，这位教练非常有效。它能让学生做题速度更快、更稳。
- 缺点： 如果题目太难，学生完全不会，这位教练就无能为力了。因为学生只能在自己已有的知识圈子里打转，学不到全新的解题思路。就像让一个只会做加减法的学生，通过“试错”去学微积分，他可能永远找不到门路。
老师 B：监督微调（SFT）——“名师辅导”
- 怎么教： 直接给学生看标准答案和详细的解题步骤（就像看名师的解题视频），让学生模仿。
- 擅长： 对于完全不会的难题，这是最好的方法。它能直接灌输新的知识和解题套路。
- 缺点： 如果题目学生本来就会，强行看答案反而可能让学生“画蛇添足”，把简单的题想复杂了，甚至把原本正确的直觉给带偏了。而且，这种方法需要大量的“名师答案”，成本很高。

2. 核心发现：互补才是王道

作者通过实验发现了一个有趣的现象：

对于简单题，用“试错教练”（RL）效果最好，学生越练越熟。
对于超级难题（学生完全不会的），用“名师辅导”（SFT）效果最好，能直接教会学生新招。
如果只用一种方法，要么学不到新东西，要么把原本会的搞砸了。

3. ReLIFT：聪明的“混合特训营”

ReLIFT 的核心思想就是**“见机行事，交替训练”**。它把上述两种老师结合在了一起，并且非常智能地安排课程：

平时训练（RL 为主）： 大部分时间，让学生自己做题、试错、自我修正。这能巩固基础，提高解题效率。
关键时刻（在线 SFT）： 当系统发现学生遇到了一道**“完全做不出来”**的超级难题时，它不会让学生死磕，而是立刻暂停 RL 训练。
- 动作： 系统立刻去收集这道难题的高质量标准答案（可以是更强的 AI 生成的，也可以是专家写的）。
- 特训： 把这些“难题 + 标准答案”存进一个“错题本”里。一旦攒够了数量，就专门花一点时间，用这些错题本对学生进行针对性辅导（SFT）。
- 循环： 辅导完，学生掌握了新招，又回到“试错教练”那里继续练习，把新学到的招数用熟。

打个比方：
想象你在练篮球。

RL 就像是你自己在场上不停地投篮、运球，通过肌肉记忆提高手感。
SFT 就像是你请了个教练，专门纠正你某个特定的动作（比如“你投篮手肘外翻了”）。
ReLIFT 的做法是：你平时自己练（RL），但当你发现某个动作怎么练都练不好（遇到难题）时，教练立刻介入，给你看标准动作示范（SFT），让你学会这个新动作，然后你继续自己练，把这个新动作变成肌肉记忆。

4. 为什么这个方法很厉害？

事半功倍（省资源）： 以前为了学会难题，需要给 AI 看海量的标准答案（数据量大，成本高）。ReLIFT 只需要在真正遇到难题时才去收集答案，大大减少了数据需求。
突破瓶颈（学新知）： 它解决了 RL 只能“优化已知”而无法“学习未知”的痛点。AI 不仅能做得更快，还能学会以前不会的难题。
答案更简洁： 实验发现，经过 ReLIFT 训练的 AI，解题思路更清晰，废话更少，不像有些方法那样为了凑字数而啰嗦。
通用性强： 无论是大模型还是小模型，无论是数学题还是其他领域的题目，这个方法都管用。

总结

这篇论文告诉我们，想要让 AI 变强，不能只靠“死磕”（纯 RL），也不能只靠“死记硬背”（纯 SFT）。ReLIFT 就像一位高明的教练，它知道什么时候该让学生自己摸索，什么时候该手把手教。这种“动态交替”的策略，让 AI 既能保持灵活性，又能快速掌握高难度的新知识，是目前训练推理型 AI 的一种高效、省钱的新范式。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions》（学习强化学习无法习得的内容：针对最难问题的交错在线微调）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

近年来，大语言模型（LLM）的推理能力通过**可验证奖励的强化学习（RLVR）**取得了显著进展（如 DeepSeek-R1, OpenAI o1 等）。然而，现有研究指出 RLVR 存在明显的局限性：

能力天花板：RLVR 主要基于模型已有的知识和行为进行优化（On-policy），倾向于强化模型已经知道的路径，而难以引入全新的推理模式或知识。
探索受限：RL 容易陷入“回声室”效应，导致模型收敛于狭窄的行为模式，在面对超出其当前能力范围的复杂问题时，性能提升有限甚至停滞。
SFT 的互补性：相比之下，**监督微调（SFT）**利用高质量演示数据能有效引入新知识，但在泛化性（OOD）和训练成本上存在不足。

核心问题：如何结合 RL 和 SFT 的优势，既利用 RL 优化现有能力，又利用 SFT 突破模型当前的认知边界，同时减少对昂贵演示数据的依赖？

2. 方法论：ReLIFT (Methodology)

作者提出了ReLIFT（Reinforcement Learning Interleaved with Online Fine-Tuning，强化学习与在线微调交错）框架。该方法的核心思想是动态识别模型在 RL 训练过程中遇到的“最难问题”，并针对这些问题进行在线 SFT。

2.1 核心洞察：训练动态分析

作者首先分析了 RL 和 SFT 在不同难度问题上的表现差异（基于 Qwen2.5-Math-7B）：

简单/中等难度问题：RL 表现优于 SFT，能有效提升准确率且不破坏原有能力。SFT 有时甚至会降低简单问题的准确率并导致回复长度增加。
最难问题（Hardest）：SFT 表现显著优于 RL。RL 难以让模型学会原本不会解决的问题，而 SFT 能有效地将模型从“完全不会”提升到“能解决”。
结论：RL 擅长“精修”（Refine），SFT 擅长“习得”（Acquire）。

2.2 ReLIFT 工作流程

ReLIFT 在 RL 训练过程中交错执行 SFT 步骤：

RL 训练与数据收集：
- 使用 GRPO（Group Relative Policy Optimization）进行 RL 训练。
- 在 Rollout 阶段，监控每个问题的准确率。
- 筛选最难问题：识别那些模型完全无法回答（准确率为 0）的问题。
- 获取高质量解：针对这些最难问题，通过外部强模型（如 DeepSeek-R1）或人工获取高质量的思维链（CoT）解决方案，并过滤掉错误答案，形成 (问题，正确解) 对。
- 将这些数据存入SFT 缓冲区（Buffer）。
交错微调（Interleaved Fine-Tuning）：
- 当缓冲区中的最难问题数量达到预设阈值 $M$ （通常设为 Batch Size）时，触发一次 SFT 步骤。
- 使用这些高难度的 (q, s) 对进行标准的交叉熵损失（Cross-Entropy Loss）微调。
- 熵正则化：为了防止 SFT 过度限制模型的探索能力，在损失函数中加入了熵正则化项（Entropy Regularization），鼓励模型在微调后仍保持一定的探索性。
自适应频率：
- 训练初期，模型能力较弱，SFT 频率较高，以快速引入新推理模式。
- 随着训练进行，RL 成为主导，SFT 仅在遇到新瓶颈时介入。

3. 主要贡献 (Key Contributions)

系统性分析：首次通过实验详细量化了 RL 和 SFT 在不同难度问题上的互补作用，证明了 RL 适合优化已知能力，而 SFT 是突破能力边界的关键。
提出 ReLIFT 框架：设计了一种新颖的、动态的交错训练策略。该方法无需预先收集海量演示数据，而是根据训练过程中的实时反馈（最难问题）动态生成 SFT 数据。
资源高效与高性能：ReLIFT 在大幅减少演示数据需求（仅需约 8k 样本 vs 传统方法的 46k+）和训练时间（GPU 小时数更少）的情况下，实现了超越纯 RL、纯 SFT 及现有混合方法（如 LUFFY, SFT+RL）的性能。

4. 实验结果 (Results)

实验基于 Qwen2.5-Math-7B 模型，在 5 个数学推理基准（AIME 2024/2025, AMC, OlympiadBench, MATH500）和 1 个分布外（OOD）基准（MMLU-Pro）上进行评估。

SOTA 性能：ReLIFT 在 6 个基准上的平均准确率达到 52.6%，显著优于所有基线方法（包括纯 RL、纯 SFT 及混合方法）。
效率对比：
- 数据量：ReLIFT 仅需 8,640 个演示样本，而对比方法（如 SFT, LUFFY）通常需要 46,000 个。
- 计算成本：ReLIFT 仅需 52 × 8 GPU 小时，显著低于其他混合方法（如 LUFFY 需 73 × 8，SFT+RL 需 57-63 × 8）。
- 回复长度：ReLIFT 生成的解决方案更加简洁（平均 Token 数更少），同时保持了更高的准确率。
泛化性：在 MMLU-Pro 等 OOD 任务上，ReLIFT 同样表现优异，证明了其良好的泛化能力。
扩展性：在更小的模型（Qwen2.5-Math-1.5B）和不同架构模型（Llama-3.1-8B）上，ReLIFT 均取得了显著提升，证明了方法的通用性。

5. 意义与结论 (Significance)

突破 RL 瓶颈：ReLIFT 证明了单纯依靠 RL 无法让模型习得全新的推理能力，必须通过针对性的 SFT 来引入新知识。
数据效率革命：该方法展示了如何通过“在线”收集最难问题的解决方案，极大地降低了对大规模高质量标注数据的依赖，使得训练更强大的推理模型更加经济可行。
训练范式创新：提出了一种“动态识别弱点 -> 针对性补强”的训练范式，为未来大模型推理能力的提升提供了新的思路，即不再追求静态的混合训练，而是根据模型状态动态调整训练策略。

总结：ReLIFT 通过巧妙地结合 RL 的探索优化能力和 SFT 的知识注入能力，解决了一个关键痛点：如何让模型学会它原本不会的东西。这不仅提升了数学推理的 SOTA 水平，也为高效训练通用推理模型提供了极具价值的实践方案。

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

1. 现有的两种“老师”及其局限

2. 核心发现：互补才是王道

3. ReLIFT：聪明的“混合特训营”

4. 为什么这个方法很厉害？

总结

1. 研究背景与问题 (Problem)

2. 方法论：ReLIFT (Methodology)

2.1 核心洞察：训练动态分析

2.2 ReLIFT 工作流程

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

类似论文

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA