NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 NFT (Negative-aware Fine-Tuning，负向感知微调) 的新方法。它的核心目标是让大语言模型（LLM）在数学推理方面变得更聪明。

为了让你轻松理解，我们可以把训练 AI 的过程想象成教一个学生做数学题。

1. 以前的两种教法（背景）

在 NFT 出现之前，教 AI 做数学题主要有两种流派：

流派一：死记硬背派（监督学习 SL）
- 做法：老师只给学生看做对的题目和答案。如果学生做错了，老师直接把那张卷子扔进垃圾桶，只保留做对的。
- 缺点：学生只知道自己“会做什么”，却不知道“为什么做错”。就像只背正确答案，一旦遇到新题，稍微变个花样就懵了。这种方法叫 RFT (Rejection Fine-Tuning)。
流派二：试错奖励派（强化学习 RL）
- 做法：让学生自己做题。做对了给糖果（奖励），做错了给批评（惩罚）。学生会为了多拿糖果，不断尝试不同的解题思路，甚至学会反思：“哎呀，刚才那个步骤好像不对，下次换个方法。”
- 优点：学生学会了自我反思，能从错误中吸取教训。
- 缺点：这种方法很复杂，需要设计复杂的“奖励机制”和“惩罚机制”，就像给老师配了一套昂贵的自动评分和奖惩系统。

大家的共识是：想让学生学会“自我反思”，必须用“流派二（强化学习）”，因为“流派一（监督学习）”太笨了，只会记答案，不会改错。

2. NFT 的突破：让“死记硬背”也能“自我反思”

这篇论文的作者（来自清华和 NVIDIA 等机构）挑战了这个共识。他们提出：其实不需要复杂的奖励系统，用简单的“监督学习”也能让学生学会反思错误！

他们的方法叫 NFT。

核心创意：把“错题本”变成“隐形老师”

想象一下，NFT 是这样教学生的：

收集数据：让学生做一批题。
分类：把做对的题（正样本）和做错的题（负样本）都留下来。
传统做法（RFT）：把错题全扔了，只练做对的。
NFT 的做法：
- 对于做对的题：像往常一样，让学生背诵正确答案。
- 对于做错的题：NFT 没有扔掉它们，而是把“做错的题”也当成一种特殊的“正确答案”来学！
- 怎么学？ NFT 会告诉学生：“你看，这道题你刚才算错了。虽然答案是错的，但你当时为什么会那样想，这个‘错误的思维过程’也是真实存在的。我要你专门学习‘如何避免这种错误的思维’。”

通俗比喻：

传统方法：老师只给你看满分试卷，让你背下来。
NFT 方法：老师给你看满分试卷，同时也给你看你的“错题集”，并告诉你：“这道题你之所以错，是因为你走了这条弯路。现在，我要你专门练习‘不走这条弯路’。”
NFT 通过一种数学技巧（构建“隐式负向策略”），让模型在计算时，把“错误的答案”也当作一种需要优化的目标。这就好比模型在潜意识里建立了一个**“避坑指南”**。

3. 为什么这很厉害？（核心发现）

论文里有两个非常惊人的发现：

效果吊打传统方法：
在数学测试中，NFT 的效果不仅比“只背正确答案”的方法（RFT）好得多，甚至超过了目前最顶尖的、复杂的“强化学习”方法（如 GRPO、DAPO）。
- 这意味着： 以前大家觉得只有复杂的“奖励系统”才能教会 AI 反思，现在发现，只要把“错题”利用起来，简单的“背诵法”也能达到同样甚至更好的效果。
理论上的“殊途同归”：
作者发现，NFT（一种监督学习方法）和 GRPO（一种强化学习方法），在数学本质上其实是等价的！
- 比喻：就像两个人爬山，一个人拿地图走直线（NFT），一个人拿指南针绕路走（GRPO）。作者发现，只要他们都在“同一条路上”（在线训练），他们脚下的步伐和最终到达的高度其实是一模一样的。
- 这打破了“监督学习”和“强化学习”之间的理论壁垒，证明它们本质上是一回事。

4. 总结：这对我们意味着什么？

更简单：以前训练强大的数学 AI 需要复杂的强化学习系统（像给 AI 配一个复杂的奖惩教练）。现在，NFT 告诉我们，只需要一个更聪明的“错题整理法”，用简单的监督学习就能达到同样强的效果。
更省钱：因为方法变简单了，训练成本可能会降低，而且不需要专门设计复杂的奖励函数。
更聪明：AI 不再只是死记硬背，而是真正学会了“从错误中学习”，这让它更像人类，具备了自我进化的能力。

一句话总结：
这篇论文发现，教 AI 做数学题，与其费尽心机设计复杂的“奖惩机制”，不如把“错题”也变成“教材”。通过这种“负向感知”的简单方法，AI 不仅能学会正确答案，还能学会如何避开错误，从而变得比那些用复杂方法训练出来的 AI 更聪明。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

现状： 大语言模型（LLM）在数学推理能力的提升主要归功于从“模仿学习”向“自我改进”范式的转变。目前，这种基于验证器（Verifier）的二元反馈训练主要依赖强化学习（RL）（如 PPO, GRPO, DAPO），因为 RL 擅长利用奖励信号进行策略优化。
痛点： 监督学习（SL） 在此类任务中很少被采用。传统观点认为 SL 仅能记忆正样本（参考答案），无法从负样本（错误答案）中进行反思和修正，因此被认为不适合自我改进。
核心问题： 是否可以在监督学习范式内，通过利用负反馈（Negative Feedback）来实现类似 RL 的自我改进能力？现有的监督基线（如 Rejection Fine-Tuning, RFT）虽然有效，但丢弃了所有负样本，导致模型无法从错误中学习，限制了其泛化能力和自我反思能力。

2. 方法论：负感知微调 (NFT)

作者提出了 负感知微调（Negative-aware Fine-Tuning, NFT），一种纯监督学习的方法，旨在让 LLM 能够自主地从其生成的错误答案中学习。

核心思想

NFT 的核心在于不丢弃负样本，而是构建一个**隐式负策略（Implicit Negative Policy）**来对负样本进行建模。

策略分解与耦合：
- 设旧策略为 $\pi_{old}$ ，正样本分布为 $\pi^+$ （正确答案），负样本分布为 $\pi^-$ （错误答案）。
- 根据贝叶斯规则，旧策略可以表示为正负策略的线性组合：
  $\pi_{old}(a|q) = r_q \cdot \pi^+(a|q) + (1-r_q) \cdot \pi^-(a|q)$
  其中 $r_q$ 是模型在问题 $q$ 上的正确率。
- 由此推导出负策略 $\pi^-$ 与正策略 $\pi^+$ 的紧密耦合关系：
  $\pi^-(a|q) = \frac{\pi_{old}(a|q) - r_q \pi^+(a|q)}{1 - r_q}$
隐式负策略构建：
- NFT 不直接训练一个独立的负模型，而是利用上述关系，将目标正策略 $\pi^+_\theta$ 的参数化形式代入负策略的定义中。
- 通过最大化负样本的似然函数（即让模型预测“这是错误答案”的概率分布），实际上是在反向优化目标正策略 $\pi^+_\theta$ 。
损失函数设计：
- NFT 的损失函数同时包含正样本和负样本的项（公式 9 和 10）：
  - 正样本 ( $r=1$ )： 标准的监督损失，最大化正样本的似然比。
  - 负样本 ( $r=0$ )： 利用上述耦合关系，构建隐式负似然比。为了防止数值不稳定，对负似然比进行了截断（Clipping）处理，并引入直连梯度（Straight-through gradient）技术。
- 提示词加权（Prompt Weighting）： 为了聚焦于高价值样本，根据问题的正确率 $r_q$ 对提示词进行加权（通常给低正确率的难题更高权重），这与 GRPO 中的优势归一化（Advantage Normalization）在数学上等价。
算法流程 (Algorithm 1)：
- 在线生成 $K$ 个答案。
- 利用验证器标记正负样本。
- 计算当前正确率 $\hat{r}_q$ 。
- 构建包含正负样本的混合数据集，计算隐式似然比并更新模型参数。
- 内存效率： 整个训练过程只需维护一个模型副本，无需像 PPO 那样维护 Actor 和 Critic 两个模型，显著降低了显存开销。

3. 关键贡献与理论发现 (Key Contributions)

打破 SL 与 RL 的界限：
- 证明了监督学习范式同样可以实现基于验证器的自我改进，无需外部教师或复杂的 RL 架构。
- 揭示了 SL 与 RL 在二元反馈系统中的深层联系。
NFT 与 GRPO 的等价性 (Theoretical Equivalence)：
- 严格同策略（Strict On-Policy）条件下： 作者通过梯度分析证明，NFT 与目前最先进的数学推理 RL 算法 GRPO 在梯度更新上是完全等价的。
- 尽管两者理论出发点不同（NFT 基于最大似然估计，GRPO 基于策略梯度），但在同策略训练时，它们的优化方向一致。GRPO 中的“组归一化（Group Normalization）”技巧在 NFT 的损失函数中已被隐式体现。
- 差异点： 主要区别在于**离策略（Off-Policy）**时的梯度截断策略。GRPO 采用硬截断（Hard Clipping），而 NFT 采用更平滑的衰减策略。
负反馈的价值：
- 实验表明，利用负样本进行反思是模型性能提升的关键。RFT（仅用正样本）虽然有效，但无法像 NFT 或 RL 那样通过负反馈探索更多可能性（表现为训练过程中熵值的增加）。

4. 实验结果 (Results)

实验在 Qwen2.5-Math-7B 和 32B 模型上进行了验证，数据集为 DAPO-Math-17k。

性能表现：
- NFT vs. RL： NFT 在多个数学基准（AIME, MATH500, OlympiadBench 等）上匹配甚至超越了领先的 RL 算法（如 GRPO, DAPO）。
- NFT vs. RFT： NFT 显著优于仅使用正样本的 RFT 基线。在 32B 模型上，负反馈带来的性能提升尤为明显。
- 具体数据： 在 7B 模型上，NFT-7B-Zero 在 AIME24 上达到 32.0%，优于 DAPO (33.1% 略低但在 32B 上表现极佳) 和 RFT (33.7% 在 7B 上略高，但在 32B 上 NFT 全面领先)。在 32B 模型上，NFT 平均得分为 59.2%，略低于 DAPO (59.9%) 但显著高于 RFT (52.8%)，且收敛速度极快。
消融实验发现：
- 负数据的重要性： 在 32B 大模型中，从正数据学习（RFT）贡献了约 80% 的增益，而负数据贡献了剩余的 20%。这表明大模型已具备较强的记忆能力，反思错误成为新的性能瓶颈。
- 提示词加权： 对低正确率问题赋予更高权重（ $\omega(q) = \sqrt{(1-r_q)/r_q}$ ）能显著提升性能。
- 截断值 $\epsilon$ ： 设置 $\epsilon=1.0$ 能避免对错误答案的过度惩罚，保持训练稳定性。

5. 意义与结论 (Significance)

理论意义： 该工作从根本上 bridging 了监督学习（SL）和强化学习（RL）在数学推理任务中的鸿沟。它表明，在二元反馈场景下，SL 和 RL 可能只是同一优化目标的不同实现视角。
实践意义：
- 降低成本： NFT 仅需维护单个模型，无需复杂的 RL 基础设施（如 Critic 模型、复杂的采样机制），大大降低了训练成本和显存需求。
- 通用性： 证明了无需 RL 也能实现 SOTA 级别的数学推理能力，为资源受限环境下的模型自我改进提供了新路径。
- 未来方向： 强调了“从错误中学习”（Self-Reflection）对于实现通用人工智能（AGI）的重要性，而不仅仅是模仿正确答案。

总结： NFT 提出了一种创新的监督学习框架，通过隐式建模负策略，成功让 LLM 在数学推理任务中利用负反馈进行自我改进。其理论证明与 GRPO 在特定条件下的等价性，以及在实际性能上媲美甚至超越 RL 算法的结果，标志着监督学习在验证驱动训练领域的重大突破。

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

1. 以前的两种教法（背景）

2. NFT 的突破：让“死记硬背”也能“自我反思”

核心创意：把“错题本”变成“隐形老师”

3. 为什么这很厉害？（核心发现）

4. 总结：这对我们意味着什么？

1. 研究背景与问题 (Problem)

2. 方法论：负感知微调 (NFT)

核心思想

3. 关键贡献与理论发现 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

类似论文

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks