On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

该论文从强化学习视角揭示了标准监督微调(SFT)梯度中隐含的奖励结构缺陷,并提出通过动态重缩放目标函数来修正梯度的“动态微调”(DFT)方法,仅需单行代码修改即可在数学推理、代码生成及多模态等任务中显著提升大模型的泛化能力。

Yongliang Wu, Yizhou Zhou, Zhou Ziheng, Yingzhe Peng, Xinyu Ye, Xinting Hu, Wenbo Zhu, Lu Qi, Ming-Hsuan Yang, Xu Yang

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DFT (Dynamic Fine-Tuning,动态微调) 的新方法,旨在解决大语言模型(LLM)在“监督微调”(SFT)阶段的一个核心痛点:模型学得太死板,举一反三的能力(泛化能力)不如强化学习(RL),但强化学习又太贵、太难用。

为了让你轻松理解,我们可以把训练大模型想象成**“教学生解题”**的过程。

1. 现状:传统的“死记硬背” (SFT) 有什么问题?

想象你是一位老师(SFT),手里有一本标准答案书(专家演示数据)。你的任务是让学生(模型)背诵这些答案。

  • 传统 SFT 的做法:
    老师拿着红笔,只要学生写的答案和书上一模一样,就打个勾;只要有一个字不一样,就狠狠打个大叉,并且大声斥责:“你怎么连这个都写错?!”
  • 问题出在哪?
    如果学生一开始对某个知识点很陌生(模型给正确答案的概率很低),老师就会因为那个“大叉”而情绪失控,惩罚力度变得极其巨大(梯度爆炸)。
    • 后果: 学生为了不被骂,开始死记硬背那几道特定的题目。一旦题目稍微变个花样(泛化测试),学生就懵了,因为老师只教了“怎么不挨骂”,没教“怎么真正理解”。
    • 论文发现: 这种“惩罚力度与自信度成反比”的机制,就是传统 SFT 泛化能力差的数学根源。

2. 对比:为什么“强化学习” (RL) 更好,但又不完美?

  • 强化学习 (RL) 的做法:
    老师不再盯着标准答案,而是让学生自己尝试解题。解对了给一颗糖(奖励),解错了不给糖。
    • 优点: 学生学会了探索不同的解题思路,遇到新题也能灵活应对(泛化能力强)。
    • 缺点: 这个过程太慢了!老师得陪学生试错无数次,还要设计复杂的“给糖规则”(奖励模型),成本极高,甚至不切实际。

3. 解决方案:DFT 的“动态调整”魔法

这篇论文的作者发现,其实我们不需要真的去搞强化学习,只需要修改一下“打叉”的规则,就能让 SFT 拥有 RL 的泛化能力。

DFT 的核心思想:给“惩罚”加个“缓冲垫”。

  • 以前的规则: 学生越没把握(概率低),老师骂得越凶(权重 1/p1/p 越大)。
  • DFT 的新规则: 老师会看一眼学生现在的自信程度。
    • 如果学生很有把握(概率高),老师就正常表扬(或者正常扣分)。
    • 如果学生完全没把握(概率低),老师会主动降低惩罚的音量(乘以概率 pp)。
    • 比喻: 就像老师对学生说:“我知道这道题对你来说很难(概率低),你写错了我不怪你,别慌,我们慢慢来。”

这一行代码的改变(乘以概率)带来了什么?

  1. 不再死记硬背: 模型不再因为害怕“低概率错误”而过度拟合那些死板的样本。
  2. 更稳定的学习: 梯度(更新力度)变得平稳,模型能更从容地学习解题的逻辑,而不是死磕字眼
  3. 效果惊人: 在数学推理、代码生成等需要灵活变通的领域,DFT 的表现远超传统 SFT,甚至在某些方面能媲美昂贵的强化学习,而且不需要额外的奖励模型,也不需要大量算力

4. 实验结果:它真的有效吗?

论文在多个“考场”进行了测试:

  • 数学奥林匹克竞赛题: 传统 SFT 教出来的学生,遇到难题(如 AIME、AMC)往往直接崩盘,甚至成绩比不学还差(因为学偏了)。而 DFT 教出来的学生,成绩稳步提升,甚至能解决以前做不出来的难题。
  • 代码生成: 就像教学生写代码,DFT 让学生写的代码更灵活,能处理更多样的需求,而不是只会复制粘贴。
  • 多模态(看图说话): 即使是在看图解题这种复杂任务上,DFT 也表现出了更强的理解力。

唯一的“副作用”:
论文也诚实地指出,DFT 并不是万能的。如果任务是死记硬背事实(比如“中国的首都是哪里”),传统的 SFT 反而更好。因为 DFT 会“宽容”那些低概率的正确答案,可能会让模型在记忆具体事实时不够“较真”。但在逻辑推理创造性任务中,DFT 是绝对的王者。

总结

这篇论文就像给大模型训练界带来了一个**“教育心理学”的顿悟**:

不要因为你没把握就疯狂惩罚自己,也不要因为太自信就盲目自信。

通过简单地**“动态调整”学习时的反馈力度(DFT),我们让大模型在保持 SFT 低成本、易实施优点的同时,意外地获得了 RL 那种强大的举一反三**的能力。这就像是用“普通教材”教出了“天才学生”,而且只改了一行代码!

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →