Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

本文从数据视角出发,通过引入拼图任务并分析学习动态,揭示了强化微调(RFT)相较于监督微调(SFT)在适应新任务时能更好地保留先验知识,其核心原因在于 RFT 通过强化与基座模型概率分布自然对齐的样本,减小了对先验知识的干扰,而基于 RFT 模拟轨迹的数据分布优化也能显著提升 SFT 的知识保留能力。

Zhihao Zhang, Qiaole Dong, Qi Zhang, Jun Zhao, Enyu Zhou, Zhiheng Xi, Senjie Jin, Xiaoran Fan, Yuhao Zhou, Mingqi Wu, Yanwei Fu, Tao Ji, Tao Gui, Xuanjing Huang, Kai Chen

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在大模型领域非常关键的问题:当我们教大模型学习新技能时,为什么它容易“忘本”(忘记以前学过的知识)?而不同的教学方法(监督微调 SFT vs 强化微调 RFT)为何会有截然不同的效果?

为了让你轻松理解,我们可以把大模型想象成一个博学的“老教授”,他肚子里装满了人类几千年的知识(预训练知识)。现在,我们要教他一项全新的、他从未见过的技能——“拼图游戏”(把打乱的图片碎片重新拼好)。

1. 核心发现:两种教学法的“副作用”

论文通过实验发现,教这位老教授学拼图,有两种主要方法,结果大不相同:

  • 方法 A:填鸭式教学(SFT - 监督微调)

    • 怎么做:老师直接把正确答案(拼图顺序)写在黑板上,告诉学生:“背下来,照做!”
    • 结果:学生学得非常快,几天就能学会拼图。
    • 副作用:因为背得太死,学生把以前学过的历史、地理、数学知识全给忘了!这就是所谓的**“灾难性遗忘”**。就像为了记住新单词,把整本字典都烧了。
  • 方法 B:引导式探索(RFT - 强化微调)

    • 怎么做:老师不直接给答案,而是让学生自己尝试拼,拼对了给奖励(比如糖果),拼错了就让他重来。学生需要自己思考“这块放哪里合适”。
    • 结果:学生学得很慢,可能需要几个月才能学会拼图。
    • 副作用:虽然学得慢,但他没有忘记以前学过的知识!他的历史、数学能力依然在线。

结论:RFT(引导式)虽然慢,但更“稳”,能保住老教授的本领;SFT(填鸭式)虽然快,但容易“伤筋动骨”。

2. 为什么会有这种区别?(核心秘密:数据分布)

大家可能会想:是不是因为 RFT 的算法更高级?
论文告诉我们:不完全是。关键在于“教材”长什么样。

  • SFT 的教材(填鸭式)
    通常是人类直接给出的“标准答案”。这些答案对于老教授来说,可能非常陌生(就像让一个习惯写文言文的人突然去写代码,而且直接告诉他代码怎么写,不解释逻辑)。这种“陌生感”太强,强行灌输会冲击他原有的知识体系,导致大脑“短路”,把旧知识覆盖掉。

  • RFT 的教材(引导式)
    是模型自己在探索过程中慢慢摸索出来的正确路径。这些路径虽然也是新知识,但它们符合模型自己的“思维习惯”(就像老教授用他自己的逻辑推导出了答案)。

    • 比喻:RFT 找到的新路径,就像是老教授原本就隐约感觉到的“直觉”,只是现在被确认了。因为这种新知识和旧知识在“大脑地图”上是挨着的,所以学习新东西时,不会把旁边的旧东西挤掉。

3. 最精彩的发现:用 RFT 的“思考过程”教 SFT

论文做了一个非常聪明的实验:
既然 RFT 学得慢但记得牢,SFT 学得快但忘得快,那能不能把 RFT 学出来的“思考过程”(Rollouts)拿来教 SFT呢?

  • 操作:让 RFT 模型先自己摸索,把那些“既做对了拼图,又保留了思考逻辑”的样本收集起来。然后,用这些样本去训练 SFT。
  • 结果:奇迹发生了!SFT 模型不仅学得快(继承了 SFT 的速度),而且忘得少(继承了 RFT 的稳定性)。

这说明了什么?
这就好比,以前我们教学生是“直接给答案”(SFT),现在变成了“给学生看学霸是怎么一步步思考并得出答案的”(RFT 生成的数据)。
关键不在于你是“填鸭”还是“引导”,而在于你给学生的“教材”是否贴合学生原本的知识结构。 如果教材是模型自己“悟”出来的,那它最安全;如果是外人强塞的,就容易出问题。

4. 总结与启示

这篇论文用“拼图”这个新任务,讲清楚了一个大道理:

  1. 遗忘的根源:不是算法本身的问题,而是训练数据的分布问题。如果新数据和旧知识“格格不入”(比如困惑度很高),模型就会为了学新东西而抛弃旧东西。
  2. RFT 的优势:RFT 就像一个探险家,它能在模型原本的知识地图上,找到那些“虽然没被明确标记,但模型其实能理解”的隐藏路径。沿着这些路径走,既学了新东西,又没破坏旧地基。
  3. 未来的方向:我们不应该只盯着算法(是 SFT 还是 RFT),而应该更关注数据的质量。最好的数据,是那些模型自己“喜欢”且“能理解”的数据(低困惑度数据)。

一句话总结
教大模型学新东西,不要硬塞答案,要让它自己“悟”出逻辑,或者把“悟”出来的逻辑教给它。这样,它既能学会新技能,又不会变成“忘本”的糊涂虫。