Each language version is independently generated for its own context, not a direct translation.
这篇论文讲述了一个关于如何让 AI 变得更聪明、更擅长解决数学难题的故事。我们可以把它想象成教一个学生如何攻克高难度奥数题的过程。
1. 核心难题:当学生“完全不会”时,老师该怎么办?
想象一下,你有一个很有潜力的学生(这就是大语言模型,比如现在的 AI)。你想通过让他做大量的数学题来训练他,让他学会自己思考(这就是强化学习 RL)。
2. 创新方案:ReGFT(参考引导微调)
这篇论文提出了一种聪明的方法,叫ReGFT。我们可以把它比作**“带着脚手架学骑车”**。
3. 整个流程的比喻
我们可以把整个训练过程想象成**“登山训练”**:
- 原始状态(Raw Model): 学生站在山脚下,看着一座陡峭的悬崖(难题),完全不知道路在哪,爬上去只会摔下来(得零分)。
- 直接背答案(Direct SFT): 有人把一张画着完美登山路线的地图塞给他。他背熟了地图,但真让他走,他因为不熟悉地形,还是走不通。
- ReFT(旧方法): 只有当学生自己偶然爬上去一次,才给他奖励。但如果他根本爬不上去,就永远没机会。
- ReGFT(新方法):
- 教练(参考解)在悬崖边给他一根安全绳(部分提示),告诉他:“从这里开始,沿着这个方向走。”
- 学生抓住绳子,自己努力向上攀爬,直到登顶。
- 虽然用了绳子,但攀爬的动作是学生自己完成的。
- 现在,学生不仅登顶了,还记住了“原来这条路可以这样走”。
4. 最终效果:更强的“登山者”
经过这种“带着提示自己解题”的训练后,学生再进入真正的**强化学习(RL)**阶段(也就是让他独立去爬各种各样的山):
- 起步更快: 因为他之前已经通过 ReGFT 学会了很多难题的解法,不再是从零开始摸索。
- 爬得更高: 即使面对以前完全不会的难题,他现在也能做出正确的反应,从而获得奖励,继续进步。
- 更稳定: 即使让他多试几次(增加计算量),他也能 consistently(持续地)找到正确答案,而不是偶尔蒙对。
总结
这篇论文的核心思想就是:在 AI 还不会做难题的时候,不要直接给它答案,也不要让它盲目瞎猜。而是给它一点“提示”,让它自己把答案推导出来。
这种方法既利用了人类专家的智慧(参考解),又尊重了 AI 自己的学习规律(自己生成推理),最终让 AI 在解决高难度数学问题时,变得既聪明又稳健。这就好比教孩子学骑车,不是直接把他推上车,而是扶着车把让他自己蹬,等他找到平衡感了,再让他自己骑。
Each language version is independently generated for its own context, not a direct translation.
这篇论文提出了一种名为**参考引导微调(Reference-Guided Fine-Tuning, ReGFT)的新方法,旨在解决大语言模型(LLM)在数学推理强化学习(RL)中面临的奖励稀疏(Reward Sparsity)**问题。
以下是对该论文的详细技术总结:
1. 研究背景与问题 (Problem)
- 奖励稀疏性困境:在基于可验证奖励的强化学习(RLVR)中,模型通过采样推理轨迹并根据最终答案的正确性获得奖励。然而,对于高难度的数学问题(如奥赛题),基座模型往往无法采样到任何正确的推理轨迹。这导致模型在训练初期无法获得有意义的正向反馈(梯度信号),使得 RL 训练停滞或效率极低。
- 现有方法的局限性:
- 直接监督微调(SFT):直接使用人类编写的参考解(Reference Solutions)进行微调通常效果不佳,因为模型难以模仿超出其自身推理分布(Reasoning Distribution)的人类证明,导致泛化能力差。
- 强化微调(ReFT):ReFT 通过让模型生成正确的轨迹并进行监督微调来缓解奖励稀疏。但 ReFT 依赖于模型已经能够生成正确解,对于基座模型完全无法解决的“硬问题”,ReFT 依然无能为力,因为模型无法采样出正确轨迹。
2. 方法论 (Methodology)
作者提出了 ReGFT,作为一种在 RL 训练之前的预处理阶段,利用人类参考解来合成高质量训练轨迹的方法。
- 核心思想:不直接让模型模仿人类解,而是利用人类解作为“提示(Hint)”或“引导”,激发模型生成符合自身推理风格但逻辑正确的轨迹。
- 具体流程:
- 部分参考解输入:对于难以解决的问题,将人类参考解的前 80%(包含关键思路和结构,但不包含最终答案)作为提示输入给模型。
- 模型自主推理:要求模型基于这些提示,从头开始生成自己的推理过程(Reasoning Trace),而不是补全或复制剩余部分。
- 轨迹合成:将模型生成的正确轨迹与完全自主生成的正确轨迹混合,用于监督微调(SFT)。
- 筛选机制:仅针对基座模型在原始采样下准确率低于 25% 的“硬问题”进行此操作,以避免过拟合简单问题。
- 与 RL 的结合:经过 ReGFT 微调后的模型作为初始化权重,再进入 DAPO(Decoupled Clip and Dynamic sAmpling Policy Optimization)强化学习阶段。
3. 关键贡献 (Key Contributions)
- 解决奖励稀疏:ReGFT 成功将人类参考解转化为模型可理解的、分布对齐的正确轨迹,显著增加了硬问题上的正确采样概率,为后续 RL 提供了密集的奖励信号。
- 分布对齐与泛化:证明了直接模仿人类解(SFT)效果有限,而“参考引导 + 自主生成”的模式能保持模型的推理风格,从而获得更好的泛化能力。
- 提升 RL 上限:ReGFT 不仅加速了 RL 的收敛,还显著提高了 RL 训练后的最终性能上限(Performance Plateau),这是单纯增加采样量或优化 RL 算法难以达到的。
- 推理时扩展性(Inference-Time Scaling):ReGFT 训练的模型在
pass@k(随着推理预算 k 增加,找到正确解的概率)指标上表现出更稳定和持续的增益,表明其解空间覆盖更广,而非仅依赖少数样本。
4. 实验结果 (Results)
实验在 OmniMath(训练集)、AIME'24、AIME'25 和 Beyond-AIME(评估集)上进行,基座模型为 Qwen3-4B。
- RL 训练表现:
- 与原始基座模型(Raw)相比,ReGFT 初始化的模型在 RL 训练初期收敛更快,且最终准确率更高。
- 与 ReFT 相比,ReGFT 在收敛后的最终性能上显著优于 ReFT。特别是在 Beyond-AIME 等极难数据集上,ReFT 甚至不如原始 DAPO,而 ReGFT 依然保持优势。
- 消融实验:
- 直接 SFT 对比:直接对人类参考解进行 SFT 的模型,在 RL 阶段表现远差于 ReGFT,证实了“模型自主生成推理”的必要性。
- 采样规模影响:即使增加 RL 阶段的采样数量(从 16 增加到 64),没有 ReGFT 初始化的模型仍无法达到 ReGFT 模型的性能,说明提升模型初始能力(Competence)比单纯增加探索预算更重要。
- Pass@k 扩展性:
- ReGFT + DAPO 在所有 k 值范围内(从 1 到 256)均表现出最强的扩展性。
- ReFT 的增益主要集中在低 k 值区域,随着 k 增加,其优势迅速消失;而 ReGFT 的优势随 k 增加保持稳定,说明其真正扩展了模型的解题能力边界。
5. 意义与结论 (Significance)
- 范式转变:该工作表明,在 RL 之前通过针对性的监督微调来提升基座模型在硬问题上的能力,比单纯依赖 RL 算法的改进(如动态采样、更长的训练步数)更为关键。
- 解锁更强推理:ReGFT 有效地将人类专家知识“翻译”成了模型内部的推理能力,使得模型能够解决原本无法解决的问题。
- 通用性:该方法独立于具体的 RL 算法(文中使用 DAPO 验证),可以作为一种通用的预处理策略,与任何先进的 RL 框架结合,进一步提升数学推理等复杂任务的表现。
总结:ReGFT 通过巧妙的“半提示、全生成”策略,解决了 RL 在数学推理中因缺乏正确样本而导致的训练停滞问题,成功打通了从“人类参考解”到“模型自主推理”的最后一公里,显著提升了大模型在复杂数学问题上的推理能力和泛化性能。