On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DFT (Dynamic Fine-Tuning，动态微调) 的新方法，旨在解决大语言模型（LLM）在“监督微调”（SFT）阶段的一个核心痛点：模型学得太死板，举一反三的能力（泛化能力）不如强化学习（RL），但强化学习又太贵、太难用。

为了让你轻松理解，我们可以把训练大模型想象成**“教学生解题”**的过程。

1. 现状：传统的“死记硬背” (SFT) 有什么问题？

想象你是一位老师（SFT），手里有一本标准答案书（专家演示数据）。你的任务是让学生（模型）背诵这些答案。

传统 SFT 的做法：
老师拿着红笔，只要学生写的答案和书上一模一样，就打个勾；只要有一个字不一样，就狠狠打个大叉，并且大声斥责：“你怎么连这个都写错？！”
问题出在哪？
如果学生一开始对某个知识点很陌生（模型给正确答案的概率很低），老师就会因为那个“大叉”而情绪失控，惩罚力度变得极其巨大（梯度爆炸）。
- 后果： 学生为了不被骂，开始死记硬背那几道特定的题目。一旦题目稍微变个花样（泛化测试），学生就懵了，因为老师只教了“怎么不挨骂”，没教“怎么真正理解”。
- 论文发现： 这种“惩罚力度与自信度成反比”的机制，就是传统 SFT 泛化能力差的数学根源。

2. 对比：为什么“强化学习” (RL) 更好，但又不完美？

强化学习 (RL) 的做法：
老师不再盯着标准答案，而是让学生自己尝试解题。解对了给一颗糖（奖励），解错了不给糖。
- 优点： 学生学会了探索不同的解题思路，遇到新题也能灵活应对（泛化能力强）。
- 缺点： 这个过程太慢了！老师得陪学生试错无数次，还要设计复杂的“给糖规则”（奖励模型），成本极高，甚至不切实际。

3. 解决方案：DFT 的“动态调整”魔法

这篇论文的作者发现，其实我们不需要真的去搞强化学习，只需要修改一下“打叉”的规则，就能让 SFT 拥有 RL 的泛化能力。

DFT 的核心思想：给“惩罚”加个“缓冲垫”。

以前的规则： 学生越没把握（概率低），老师骂得越凶（权重 $1/p$ 越大）。
DFT 的新规则： 老师会看一眼学生现在的自信程度。
- 如果学生很有把握（概率高），老师就正常表扬（或者正常扣分）。
- 如果学生完全没把握（概率低），老师会主动降低惩罚的音量（乘以概率 $p$ ）。
- 比喻： 就像老师对学生说：“我知道这道题对你来说很难（概率低），你写错了我不怪你，别慌，我们慢慢来。”

这一行代码的改变（乘以概率）带来了什么？

不再死记硬背： 模型不再因为害怕“低概率错误”而过度拟合那些死板的样本。
更稳定的学习： 梯度（更新力度）变得平稳，模型能更从容地学习解题的逻辑，而不是死磕字眼。
效果惊人： 在数学推理、代码生成等需要灵活变通的领域，DFT 的表现远超传统 SFT，甚至在某些方面能媲美昂贵的强化学习，而且不需要额外的奖励模型，也不需要大量算力。

4. 实验结果：它真的有效吗？

论文在多个“考场”进行了测试：

数学奥林匹克竞赛题： 传统 SFT 教出来的学生，遇到难题（如 AIME、AMC）往往直接崩盘，甚至成绩比不学还差（因为学偏了）。而 DFT 教出来的学生，成绩稳步提升，甚至能解决以前做不出来的难题。
代码生成： 就像教学生写代码，DFT 让学生写的代码更灵活，能处理更多样的需求，而不是只会复制粘贴。
多模态（看图说话）： 即使是在看图解题这种复杂任务上，DFT 也表现出了更强的理解力。

唯一的“副作用”：
论文也诚实地指出，DFT 并不是万能的。如果任务是死记硬背事实（比如“中国的首都是哪里”），传统的 SFT 反而更好。因为 DFT 会“宽容”那些低概率的正确答案，可能会让模型在记忆具体事实时不够“较真”。但在逻辑推理和创造性任务中，DFT 是绝对的王者。

总结

这篇论文就像给大模型训练界带来了一个**“教育心理学”的顿悟**：

不要因为你没把握就疯狂惩罚自己，也不要因为太自信就盲目自信。

通过简单地**“动态调整”学习时的反馈力度（DFT），我们让大模型在保持 SFT 低成本、易实施优点的同时，意外地获得了 RL 那种强大的举一反三**的能力。这就像是用“普通教材”教出了“天才学生”，而且只改了一行代码！

Each language version is independently generated for its own context, not a direct translation.

这篇论文题为《关于 SFT 的泛化性：一种带有奖励修正的强化学习视角》（ON THE GENERALIZATION OF SFT: A REINFORCEMENT LEARNING PERSPECTIVE WITH REWARD RECTIFICATION），发表于 ICLR 2026。作者提出了一种名为动态微调（Dynamic Fine-Tuning, DFT）的新方法，旨在解决监督微调（SFT）相比强化学习（RL）泛化能力不足的问题。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

SFT 的局限性：监督微调（SFT）是大语言模型（LLM）后训练的标准范式，因其实现简单、能高效模仿专家行为而广受欢迎。然而，与强化学习（RL）相比，SFT 在泛化能力上存在明显短板，往往容易过拟合训练数据，难以处理未见过的复杂推理任务。
RL 的代价：虽然 RL 通过显式的奖励信号探索多样化策略从而获得更好的泛化性，但其需要巨大的计算资源、复杂的超参数调整以及显式的奖励模型，这在许多实际场景中（特别是只有正样本数据时）是不切实际的。
核心问题：能否在不需要外部奖励模型或负样本的情况下，从理论层面根本性地改进 SFT，使其具备类似 RL 的泛化能力？

2. 理论分析 (Theoretical Analysis)

作者通过数学推导揭示了标准 SFT 梯度与策略梯度（Policy Gradient）之间的深层联系：

隐式奖励结构：在特定假设下，SFT 的梯度更新可以被解释为一种策略梯度，其中包含一个隐式定义的奖励函数。
奖励的缺陷：
1. 稀疏性：奖励仅在模型输出与专家轨迹完全匹配时非零。
2. 逆概率加权（Inverse Probability Weighting）：该隐式奖励与模型对专家动作的概率成反比（即 $r \propto 1/\pi_\theta(y|x)$ ）。
后果：当模型对专家动作的预测概率较低时，逆概率权重会变得极大，导致梯度爆炸。这种不稳定的优化景观（Reward Landscape）使得 SFT 倾向于过拟合那些模型原本就预测不准的稀有样本，从而损害了泛化能力。

3. 方法论：动态微调 (Methodology: DFT)

基于上述洞察，作者提出了动态微调（DFT）方法，其核心思想是奖励修正（Reward Rectification）。

核心机制：
- 在计算 SFT 损失时，动态地根据当前 Token 的预测概率对目标函数进行重缩放。
- 具体而言，将标准的交叉熵损失 $-\log \pi_\theta(y^*|x)$ 修改为 $-\text{sg}(\pi_\theta(y^*|x)) \cdot \log \pi_\theta(y^*|x)$ ，其中 $\text{sg}(\cdot)$ 是停止梯度（stop-gradient）操作符。
- 物理意义：这一操作抵消了标准 SFT 梯度中由 $1/\pi_\theta$ 引入的扭曲权重。在 RL 视角下，这相当于将隐式奖励从“与概率成反比”修正为对所有专家轨迹均匀分布为 1。
实现细节：
- 为了数值稳定性，该方法在 Token 级别应用重加权（而非整个序列），这与 PPO 中的重要性采样处理方式类似。
- 极简实现：仅需修改损失函数的一行代码（乘以 Token 概率并停止梯度），无需引入参考模型、额外的奖励模型或复杂的采样过程。

4. 实验结果 (Results)

作者在多个基准测试和任务上验证了 DFT 的有效性：

数学推理任务（核心实验）：
- 在 Qwen2.5-Math、LLaMA-3 和 DeepSeekMath 等多个模型系列上，DFT 均显著优于标准 SFT。
- 泛化性提升：在 Olympiad Bench、AIME 2024、AMC 2023 等高难度基准上，标准 SFT 往往导致性能下降（过拟合），而 DFT 则能持续提升性能。例如，在 Qwen2.5-Math-1.5B 上，DFT 相比基线提升了 +15.66 分，而 SFT 仅提升 +2.09 分。
- 收敛速度：DFT 收敛更快，通常在训练的前 120 步内即可达到峰值性能，且样本效率更高。
离线强化学习设置：
- 在离线 RL 场景下（使用拒绝采样生成的正负样本），DFT 的表现优于 DPO、RFT 等离线方法，甚至在某些指标上超越了 PPO 和 GRPO 等在线 RL 方法。
跨领域泛化：
- 代码生成：在 HumanEval 和 MultiPL-E 等代码基准上，DFT 同样带来了显著的性能提升。
- 多模态推理：在 MathVerse 和 MathVision 等多模态数学推理任务中，DFT 也表现出优于 SFT 的泛化能力。
局限性分析：
- 在事实性知识（Factual Knowledge）任务（如 Natural Questions）中，DFT 表现不如 SFT。因为 DFT 基于模型自身的置信度进行加权，如果模型缺乏相关知识，这种机制可能会强化其错误信念，阻碍新知识的学习。

5. 关键贡献 (Key Contributions)

理论突破：从数学上严格证明了 SFT 梯度等价于一种带有病态隐式奖励（稀疏且逆概率加权）的策略梯度，揭示了 SFT 泛化能力受限的根本原因。
方法创新：提出了 DFT，一种仅需一行代码修改的简单方法，通过动态重缩放消除了 SFT 中的梯度不稳定性，使其行为更接近 RL。
实证验证：在数学推理、代码生成和多模态任务等多个领域证明了 DFT 的优越性，特别是在高难度推理任务上，DFT 解决了 SFT 常见的性能退化问题。
效率与实用性：DFT 不需要参考模型、不需要大规模采样、不需要奖励模型，计算成本与标准 SFT 相当，是连接 SFT 与复杂 RL 方法的高效桥梁。

6. 意义与影响 (Significance)

重新定义 SFT：这项工作表明，SFT 并非仅仅是“死记硬背”，通过修正其目标函数的权重机制，可以显著提升其泛化能力，使其在无需 RL 复杂流程的情况下达到接近 RL 的效果。
低成本高性能：为资源受限的场景提供了一种极具性价比的优化方案。对于只有正样本数据且无法训练奖励模型的场景，DFT 是比传统 SFT 更优的选择。
设计哲学转变：论文指出，在 LLM 时代，过拟合和记忆化是主要挑战，因此需要重新思考目标函数的设计（如从强调难样本的 Focal Loss 转向强调模型置信度的 DFT 逻辑）。

总结：
这篇论文通过深刻的理论分析，指出了标准 SFT 在梯度更新机制上的内在缺陷，并提出了一种极简的修正方案（DFT）。实验证明，DFT 在保持 SFT 简单高效的同时，显著提升了模型在复杂推理任务中的泛化能力，为大语言模型的后训练提供了一种新的、强有力的范式。

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

1. 现状：传统的“死记硬背” (SFT) 有什么问题？

2. 对比：为什么“强化学习” (RL) 更好，但又不完美？

3. 解决方案：DFT 的“动态调整”魔法

4. 实验结果：它真的有效吗？

总结

1. 研究背景与问题 (Problem)

2. 理论分析 (Theoretical Analysis)

3. 方法论：动态微调 (Methodology: DFT)

4. 实验结果 (Results)

5. 关键贡献 (Key Contributions)

6. 意义与影响 (Significance)

类似论文

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank