Learn Hard Problems During RL with Reference Guided Fine-tuning

本文提出了参考引导微调(ReGFT)方法,通过利用人类参考解合成符合模型推理分布的正向轨迹,有效缓解了强化学习在数学推理中面临的奖励稀疏问题,从而显著提升了模型在 AIME 等基准测试上的表现并加速了训练收敛。

Yangzhen Wu, Shanda Li, Zixin Wen, Xin Zhou, Ameet Talwalkar, Yiming Yang, Wenhao Huang, Tianle Cai

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让 AI 变得更聪明、更擅长解决数学难题的故事。我们可以把它想象成教一个学生如何攻克高难度奥数题的过程。

1. 核心难题:当学生“完全不会”时,老师该怎么办?

想象一下,你有一个很有潜力的学生(这就是大语言模型,比如现在的 AI)。你想通过让他做大量的数学题来训练他,让他学会自己思考(这就是强化学习 RL)。

  • 传统方法的困境(奖励稀疏):
    如果题目太难,学生完全不会做,他瞎蒙了一通,答案肯定是错的。这时候,作为老师的“自动评分系统”会给他打零分。

    • 问题在于: 如果学生连续做 100 道难题,全部得零分,他就不知道哪里错了,也不知道怎么改。就像在黑暗中摸索,没有光亮(正向反馈),学习就停滞了。这就是论文里说的**“奖励稀疏”**。
  • 直接给答案的陷阱:
    这时候,有人会说:“那把标准答案(人类写的解题过程)直接给他背不就行了吗?”

    • 问题在于: 学生的思维逻辑和人类专家不一样。如果直接让他背答案,他就像是在“死记硬背”,一旦换个问法或者题目稍微变一点,他就不会了。因为他没有真正理解解题的“套路”,只是模仿了人类的文字。

2. 创新方案:ReGFT(参考引导微调)

这篇论文提出了一种聪明的方法,叫ReGFT。我们可以把它比作**“带着脚手架学骑车”**。

  • 怎么做?
    当遇到一道学生完全不会的难题时,老师不直接给完整答案,而是把答案的前半部分(比如解题思路的开头、关键公式的设定)作为**“提示”**(Hint)给学生。

    • 关键一步: 老师要求学生:“看着这个提示,你自己把剩下的解题过程写出来,必须用你自己的逻辑,不能照抄。”
  • 为什么有效?

    1. 搭了脚手架: 提示(参考解)帮学生跨过了“完全没头绪”的门槛,让他知道该往哪个方向想。
    2. 保持自我风格: 学生必须自己完成剩下的推理。这样生成的解题过程,既包含了正确的方向(因为参考了提示),又符合学生自己的思维习惯(因为是他自己写的)。
    3. 创造“成功样本”: 通过这种方法,原本学生做不出来的难题,现在能做出正确答案了。这就给后续的强化学习提供了宝贵的“正向反馈”(奖励)。

3. 整个流程的比喻

我们可以把整个训练过程想象成**“登山训练”**:

  1. 原始状态(Raw Model): 学生站在山脚下,看着一座陡峭的悬崖(难题),完全不知道路在哪,爬上去只会摔下来(得零分)。
  2. 直接背答案(Direct SFT): 有人把一张画着完美登山路线的地图塞给他。他背熟了地图,但真让他走,他因为不熟悉地形,还是走不通。
  3. ReFT(旧方法): 只有当学生自己偶然爬上去一次,才给他奖励。但如果他根本爬不上去,就永远没机会。
  4. ReGFT(新方法):
    • 教练(参考解)在悬崖边给他一根安全绳(部分提示),告诉他:“从这里开始,沿着这个方向走。”
    • 学生抓住绳子,自己努力向上攀爬,直到登顶。
    • 虽然用了绳子,但攀爬的动作是学生自己完成的。
    • 现在,学生不仅登顶了,还记住了“原来这条路可以这样走”。

4. 最终效果:更强的“登山者”

经过这种“带着提示自己解题”的训练后,学生再进入真正的**强化学习(RL)**阶段(也就是让他独立去爬各种各样的山):

  • 起步更快: 因为他之前已经通过 ReGFT 学会了很多难题的解法,不再是从零开始摸索。
  • 爬得更高: 即使面对以前完全不会的难题,他现在也能做出正确的反应,从而获得奖励,继续进步。
  • 更稳定: 即使让他多试几次(增加计算量),他也能 consistently(持续地)找到正确答案,而不是偶尔蒙对。

总结

这篇论文的核心思想就是:在 AI 还不会做难题的时候,不要直接给它答案,也不要让它盲目瞎猜。而是给它一点“提示”,让它自己把答案推导出来。

这种方法既利用了人类专家的智慧(参考解),又尊重了 AI 自己的学习规律(自己生成推理),最终让 AI 在解决高难度数学问题时,变得既聪明又稳健。这就好比教孩子学骑车,不是直接把他推上车,而是扶着车把让他自己蹬,等他找到平衡感了,再让他自己骑。