Learn Hard Problems During RL with Reference Guided Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让 AI 变得更聪明、更擅长解决数学难题的故事。我们可以把它想象成教一个学生如何攻克高难度奥数题的过程。

1. 核心难题：当学生“完全不会”时，老师该怎么办？

想象一下，你有一个很有潜力的学生（这就是大语言模型，比如现在的 AI）。你想通过让他做大量的数学题来训练他，让他学会自己思考（这就是强化学习 RL）。

传统方法的困境（奖励稀疏）：
如果题目太难，学生完全不会做，他瞎蒙了一通，答案肯定是错的。这时候，作为老师的“自动评分系统”会给他打零分。
- 问题在于： 如果学生连续做 100 道难题，全部得零分，他就不知道哪里错了，也不知道怎么改。就像在黑暗中摸索，没有光亮（正向反馈），学习就停滞了。这就是论文里说的**“奖励稀疏”**。
直接给答案的陷阱：
这时候，有人会说：“那把标准答案（人类写的解题过程）直接给他背不就行了吗？”
- 问题在于： 学生的思维逻辑和人类专家不一样。如果直接让他背答案，他就像是在“死记硬背”，一旦换个问法或者题目稍微变一点，他就不会了。因为他没有真正理解解题的“套路”，只是模仿了人类的文字。

2. 创新方案：ReGFT（参考引导微调）

这篇论文提出了一种聪明的方法，叫ReGFT。我们可以把它比作**“带着脚手架学骑车”**。

怎么做？
当遇到一道学生完全不会的难题时，老师不直接给完整答案，而是把答案的前半部分（比如解题思路的开头、关键公式的设定）作为**“提示”**（Hint）给学生。
- 关键一步： 老师要求学生：“看着这个提示，你自己把剩下的解题过程写出来，必须用你自己的逻辑，不能照抄。”
为什么有效？
1. 搭了脚手架： 提示（参考解）帮学生跨过了“完全没头绪”的门槛，让他知道该往哪个方向想。
2. 保持自我风格： 学生必须自己完成剩下的推理。这样生成的解题过程，既包含了正确的方向（因为参考了提示），又符合学生自己的思维习惯（因为是他自己写的）。
3. 创造“成功样本”： 通过这种方法，原本学生做不出来的难题，现在能做出正确答案了。这就给后续的强化学习提供了宝贵的“正向反馈”（奖励）。

3. 整个流程的比喻

我们可以把整个训练过程想象成**“登山训练”**：

原始状态（Raw Model）： 学生站在山脚下，看着一座陡峭的悬崖（难题），完全不知道路在哪，爬上去只会摔下来（得零分）。
直接背答案（Direct SFT）： 有人把一张画着完美登山路线的地图塞给他。他背熟了地图，但真让他走，他因为不熟悉地形，还是走不通。
ReFT（旧方法）： 只有当学生自己偶然爬上去一次，才给他奖励。但如果他根本爬不上去，就永远没机会。
ReGFT（新方法）：
- 教练（参考解）在悬崖边给他一根安全绳（部分提示），告诉他：“从这里开始，沿着这个方向走。”
- 学生抓住绳子，自己努力向上攀爬，直到登顶。
- 虽然用了绳子，但攀爬的动作是学生自己完成的。
- 现在，学生不仅登顶了，还记住了“原来这条路可以这样走”。

4. 最终效果：更强的“登山者”

经过这种“带着提示自己解题”的训练后，学生再进入真正的**强化学习（RL）**阶段（也就是让他独立去爬各种各样的山）：

起步更快： 因为他之前已经通过 ReGFT 学会了很多难题的解法，不再是从零开始摸索。
爬得更高： 即使面对以前完全不会的难题，他现在也能做出正确的反应，从而获得奖励，继续进步。
更稳定： 即使让他多试几次（增加计算量），他也能 consistently（持续地）找到正确答案，而不是偶尔蒙对。

总结

这篇论文的核心思想就是：在 AI 还不会做难题的时候，不要直接给它答案，也不要让它盲目瞎猜。而是给它一点“提示”，让它自己把答案推导出来。

这种方法既利用了人类专家的智慧（参考解），又尊重了 AI 自己的学习规律（自己生成推理），最终让 AI 在解决高难度数学问题时，变得既聪明又稳健。这就好比教孩子学骑车，不是直接把他推上车，而是扶着车把让他自己蹬，等他找到平衡感了，再让他自己骑。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**参考引导微调（Reference-Guided Fine-Tuning, ReGFT）的新方法，旨在解决大语言模型（LLM）在数学推理强化学习（RL）中面临的奖励稀疏（Reward Sparsity）**问题。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

奖励稀疏性困境：在基于可验证奖励的强化学习（RLVR）中，模型通过采样推理轨迹并根据最终答案的正确性获得奖励。然而，对于高难度的数学问题（如奥赛题），基座模型往往无法采样到任何正确的推理轨迹。这导致模型在训练初期无法获得有意义的正向反馈（梯度信号），使得 RL 训练停滞或效率极低。
现有方法的局限性：
- 直接监督微调（SFT）：直接使用人类编写的参考解（Reference Solutions）进行微调通常效果不佳，因为模型难以模仿超出其自身推理分布（Reasoning Distribution）的人类证明，导致泛化能力差。
- 强化微调（ReFT）：ReFT 通过让模型生成正确的轨迹并进行监督微调来缓解奖励稀疏。但 ReFT 依赖于模型已经能够生成正确解，对于基座模型完全无法解决的“硬问题”，ReFT 依然无能为力，因为模型无法采样出正确轨迹。

2. 方法论 (Methodology)

作者提出了 ReGFT，作为一种在 RL 训练之前的预处理阶段，利用人类参考解来合成高质量训练轨迹的方法。

核心思想：不直接让模型模仿人类解，而是利用人类解作为“提示（Hint）”或“引导”，激发模型生成符合自身推理风格但逻辑正确的轨迹。
具体流程：
1. 部分参考解输入：对于难以解决的问题，将人类参考解的前 80%（包含关键思路和结构，但不包含最终答案）作为提示输入给模型。
2. 模型自主推理：要求模型基于这些提示，从头开始生成自己的推理过程（Reasoning Trace），而不是补全或复制剩余部分。
3. 轨迹合成：将模型生成的正确轨迹与完全自主生成的正确轨迹混合，用于监督微调（SFT）。
4. 筛选机制：仅针对基座模型在原始采样下准确率低于 25% 的“硬问题”进行此操作，以避免过拟合简单问题。
与 RL 的结合：经过 ReGFT 微调后的模型作为初始化权重，再进入 DAPO（Decoupled Clip and Dynamic sAmpling Policy Optimization）强化学习阶段。

3. 关键贡献 (Key Contributions)

解决奖励稀疏：ReGFT 成功将人类参考解转化为模型可理解的、分布对齐的正确轨迹，显著增加了硬问题上的正确采样概率，为后续 RL 提供了密集的奖励信号。
分布对齐与泛化：证明了直接模仿人类解（SFT）效果有限，而“参考引导 + 自主生成”的模式能保持模型的推理风格，从而获得更好的泛化能力。
提升 RL 上限：ReGFT 不仅加速了 RL 的收敛，还显著提高了 RL 训练后的最终性能上限（Performance Plateau），这是单纯增加采样量或优化 RL 算法难以达到的。
推理时扩展性（Inference-Time Scaling）：ReGFT 训练的模型在 pass@k（随着推理预算 $k$ 增加，找到正确解的概率）指标上表现出更稳定和持续的增益，表明其解空间覆盖更广，而非仅依赖少数样本。

4. 实验结果 (Results)

实验在 OmniMath（训练集）、AIME'24、AIME'25 和 Beyond-AIME（评估集）上进行，基座模型为 Qwen3-4B。

RL 训练表现：
- 与原始基座模型（Raw）相比，ReGFT 初始化的模型在 RL 训练初期收敛更快，且最终准确率更高。
- 与 ReFT 相比，ReGFT 在收敛后的最终性能上显著优于 ReFT。特别是在 Beyond-AIME 等极难数据集上，ReFT 甚至不如原始 DAPO，而 ReGFT 依然保持优势。
消融实验：
- 直接 SFT 对比：直接对人类参考解进行 SFT 的模型，在 RL 阶段表现远差于 ReGFT，证实了“模型自主生成推理”的必要性。
- 采样规模影响：即使增加 RL 阶段的采样数量（从 16 增加到 64），没有 ReGFT 初始化的模型仍无法达到 ReGFT 模型的性能，说明提升模型初始能力（Competence）比单纯增加探索预算更重要。
Pass@k 扩展性：
- ReGFT + DAPO 在所有 $k$ 值范围内（从 1 到 256）均表现出最强的扩展性。
- ReFT 的增益主要集中在低 $k$ 值区域，随着 $k$ 增加，其优势迅速消失；而 ReGFT 的优势随 $k$ 增加保持稳定，说明其真正扩展了模型的解题能力边界。

5. 意义与结论 (Significance)

范式转变：该工作表明，在 RL 之前通过针对性的监督微调来提升基座模型在硬问题上的能力，比单纯依赖 RL 算法的改进（如动态采样、更长的训练步数）更为关键。
解锁更强推理：ReGFT 有效地将人类专家知识“翻译”成了模型内部的推理能力，使得模型能够解决原本无法解决的问题。
通用性：该方法独立于具体的 RL 算法（文中使用 DAPO 验证），可以作为一种通用的预处理策略，与任何先进的 RL 框架结合，进一步提升数学推理等复杂任务的表现。

总结：ReGFT 通过巧妙的“半提示、全生成”策略，解决了 RL 在数学推理中因缺乏正确样本而导致的训练停滞问题，成功打通了从“人类参考解”到“模型自主推理”的最后一公里，显著提升了大模型在复杂数学问题上的推理能力和泛化性能。

Learn Hard Problems During RL with Reference Guided Fine-tuning

1. 核心难题：当学生“完全不会”时，老师该怎么办？

2. 创新方案：ReGFT（参考引导微调）

3. 整个流程的比喻

4. 最终效果：更强的“登山者”

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

类似论文

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers