NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

该论文提出了负感知微调(NFT)方法,通过利用自生成的错误答案构建隐式负策略,在无需外部教师的情况下使大语言模型能够自主反思并改进数学推理能力,从而在性能上超越传统监督学习基线并媲美领先强化学习算法,最终在理论层面证明了监督学习与强化学习在严格同策略训练下的等价性。

Huayu Chen, Kaiwen Zheng, Qinsheng Zhang, Ganqu Cui, Lifan Yuan, Yin Cui, Haotian Ye, Tsung-Yi Lin, Ming-Yu Liu, Jun Zhu, Haoxiang Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NFT (Negative-aware Fine-Tuning,负向感知微调) 的新方法。它的核心目标是让大语言模型(LLM)在数学推理方面变得更聪明。

为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生做数学题

1. 以前的两种教法(背景)

在 NFT 出现之前,教 AI 做数学题主要有两种流派:

  • 流派一:死记硬背派(监督学习 SL)
    • 做法:老师只给学生看做对的题目和答案。如果学生做错了,老师直接把那张卷子扔进垃圾桶,只保留做对的。
    • 缺点:学生只知道自己“会做什么”,却不知道“为什么做错”。就像只背正确答案,一旦遇到新题,稍微变个花样就懵了。这种方法叫 RFT (Rejection Fine-Tuning)
  • 流派二:试错奖励派(强化学习 RL)
    • 做法:让学生自己做题。做对了给糖果(奖励),做错了给批评(惩罚)。学生会为了多拿糖果,不断尝试不同的解题思路,甚至学会反思:“哎呀,刚才那个步骤好像不对,下次换个方法。”
    • 优点:学生学会了自我反思,能从错误中吸取教训。
    • 缺点:这种方法很复杂,需要设计复杂的“奖励机制”和“惩罚机制”,就像给老师配了一套昂贵的自动评分和奖惩系统。

大家的共识是:想让学生学会“自我反思”,必须用“流派二(强化学习)”,因为“流派一(监督学习)”太笨了,只会记答案,不会改错。

2. NFT 的突破:让“死记硬背”也能“自我反思”

这篇论文的作者(来自清华和 NVIDIA 等机构)挑战了这个共识。他们提出:其实不需要复杂的奖励系统,用简单的“监督学习”也能让学生学会反思错误!

他们的方法叫 NFT

核心创意:把“错题本”变成“隐形老师”

想象一下,NFT 是这样教学生的:

  1. 收集数据:让学生做一批题。
  2. 分类:把做对的题(正样本)和做错的题(负样本)都留下来。
  3. 传统做法(RFT):把错题全扔了,只练做对的。
  4. NFT 的做法
    • 对于做对的题:像往常一样,让学生背诵正确答案。
    • 对于做错的题:NFT 没有扔掉它们,而是把“做错的题”也当成一种特殊的“正确答案”来学
    • 怎么学? NFT 会告诉学生:“你看,这道题你刚才算错了。虽然答案是错的,但你当时为什么会那样想,这个‘错误的思维过程’也是真实存在的。我要你专门学习‘如何避免这种错误的思维’。”

通俗比喻

  • 传统方法:老师只给你看满分试卷,让你背下来。
  • NFT 方法:老师给你看满分试卷,同时也给你看你的“错题集”,并告诉你:“这道题你之所以错,是因为你走了这条弯路。现在,我要你专门练习‘不走这条弯路’。”
  • NFT 通过一种数学技巧(构建“隐式负向策略”),让模型在计算时,把“错误的答案”也当作一种需要优化的目标。这就好比模型在潜意识里建立了一个**“避坑指南”**。

3. 为什么这很厉害?(核心发现)

论文里有两个非常惊人的发现:

  1. 效果吊打传统方法
    在数学测试中,NFT 的效果不仅比“只背正确答案”的方法(RFT)好得多,甚至超过了目前最顶尖的、复杂的“强化学习”方法(如 GRPO、DAPO)。

    • 这意味着: 以前大家觉得只有复杂的“奖励系统”才能教会 AI 反思,现在发现,只要把“错题”利用起来,简单的“背诵法”也能达到同样甚至更好的效果。
  2. 理论上的“殊途同归”
    作者发现,NFT(一种监督学习方法)和 GRPO(一种强化学习方法),在数学本质上其实是等价的!

    • 比喻:就像两个人爬山,一个人拿地图走直线(NFT),一个人拿指南针绕路走(GRPO)。作者发现,只要他们都在“同一条路上”(在线训练),他们脚下的步伐和最终到达的高度其实是一模一样的。
    • 这打破了“监督学习”和“强化学习”之间的理论壁垒,证明它们本质上是一回事。

4. 总结:这对我们意味着什么?

  • 更简单:以前训练强大的数学 AI 需要复杂的强化学习系统(像给 AI 配一个复杂的奖惩教练)。现在,NFT 告诉我们,只需要一个更聪明的“错题整理法”,用简单的监督学习就能达到同样强的效果。
  • 更省钱:因为方法变简单了,训练成本可能会降低,而且不需要专门设计复杂的奖励函数。
  • 更聪明:AI 不再只是死记硬背,而是真正学会了“从错误中学习”,这让它更像人类,具备了自我进化的能力。

一句话总结
这篇论文发现,教 AI 做数学题,与其费尽心机设计复杂的“奖惩机制”,不如把“错题”也变成“教材”。通过这种“负向感知”的简单方法,AI 不仅能学会正确答案,还能学会如何避开错误,从而变得比那些用复杂方法训练出来的 AI 更聪明。