Why Reinforcement Fine-Tuning Enables MLLMs Preserve Prior Knowledge Better: A Data Perspective

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在大模型领域非常关键的问题：当我们教大模型学习新技能时，为什么它容易“忘本”（忘记以前学过的知识）？而不同的教学方法（监督微调 SFT vs 强化微调 RFT）为何会有截然不同的效果？

为了让你轻松理解，我们可以把大模型想象成一个博学的“老教授”，他肚子里装满了人类几千年的知识（预训练知识）。现在，我们要教他一项全新的、他从未见过的技能——“拼图游戏”（把打乱的图片碎片重新拼好）。

1. 核心发现：两种教学法的“副作用”

论文通过实验发现，教这位老教授学拼图，有两种主要方法，结果大不相同：

方法 A：填鸭式教学（SFT - 监督微调）
- 怎么做：老师直接把正确答案（拼图顺序）写在黑板上，告诉学生：“背下来，照做！”
- 结果：学生学得非常快，几天就能学会拼图。
- 副作用：因为背得太死，学生把以前学过的历史、地理、数学知识全给忘了！这就是所谓的**“灾难性遗忘”**。就像为了记住新单词，把整本字典都烧了。
方法 B：引导式探索（RFT - 强化微调）
- 怎么做：老师不直接给答案，而是让学生自己尝试拼，拼对了给奖励（比如糖果），拼错了就让他重来。学生需要自己思考“这块放哪里合适”。
- 结果：学生学得很慢，可能需要几个月才能学会拼图。
- 副作用：虽然学得慢，但他没有忘记以前学过的知识！他的历史、数学能力依然在线。

结论：RFT（引导式）虽然慢，但更“稳”，能保住老教授的本领；SFT（填鸭式）虽然快，但容易“伤筋动骨”。

2. 为什么会有这种区别？（核心秘密：数据分布）

大家可能会想：是不是因为 RFT 的算法更高级？
论文告诉我们：不完全是。关键在于“教材”长什么样。

SFT 的教材（填鸭式）：
通常是人类直接给出的“标准答案”。这些答案对于老教授来说，可能非常陌生（就像让一个习惯写文言文的人突然去写代码，而且直接告诉他代码怎么写，不解释逻辑）。这种“陌生感”太强，强行灌输会冲击他原有的知识体系，导致大脑“短路”，把旧知识覆盖掉。
RFT 的教材（引导式）：
是模型自己在探索过程中慢慢摸索出来的正确路径。这些路径虽然也是新知识，但它们符合模型自己的“思维习惯”（就像老教授用他自己的逻辑推导出了答案）。
- 比喻：RFT 找到的新路径，就像是老教授原本就隐约感觉到的“直觉”，只是现在被确认了。因为这种新知识和旧知识在“大脑地图”上是挨着的，所以学习新东西时，不会把旁边的旧东西挤掉。

3. 最精彩的发现：用 RFT 的“思考过程”教 SFT

论文做了一个非常聪明的实验：
既然 RFT 学得慢但记得牢，SFT 学得快但忘得快，那能不能把 RFT 学出来的“思考过程”（Rollouts）拿来教 SFT呢？

操作：让 RFT 模型先自己摸索，把那些“既做对了拼图，又保留了思考逻辑”的样本收集起来。然后，用这些样本去训练 SFT。
结果：奇迹发生了！SFT 模型不仅学得快（继承了 SFT 的速度），而且忘得少（继承了 RFT 的稳定性）。

这说明了什么？
这就好比，以前我们教学生是“直接给答案”（SFT），现在变成了“给学生看学霸是怎么一步步思考并得出答案的”（RFT 生成的数据）。
关键不在于你是“填鸭”还是“引导”，而在于你给学生的“教材”是否贴合学生原本的知识结构。 如果教材是模型自己“悟”出来的，那它最安全；如果是外人强塞的，就容易出问题。

4. 总结与启示

这篇论文用“拼图”这个新任务，讲清楚了一个大道理：

遗忘的根源：不是算法本身的问题，而是训练数据的分布问题。如果新数据和旧知识“格格不入”（比如困惑度很高），模型就会为了学新东西而抛弃旧东西。
RFT 的优势：RFT 就像一个探险家，它能在模型原本的知识地图上，找到那些“虽然没被明确标记，但模型其实能理解”的隐藏路径。沿着这些路径走，既学了新东西，又没破坏旧地基。
未来的方向：我们不应该只盯着算法（是 SFT 还是 RFT），而应该更关注数据的质量。最好的数据，是那些模型自己“喜欢”且“能理解”的数据（低困惑度数据）。

一句话总结：
教大模型学新东西，不要硬塞答案，要让它自己“悟”出逻辑，或者把“悟”出来的逻辑教给它。这样，它既能学会新技能，又不会变成“忘本”的糊涂虫。

Each language version is independently generated for its own context, not a direct translation.

这是一篇题为《WHY REINFORCEMENT FINE-TUNING PRESERVES PRIOR KNOWLEDGE BETTER: A DATA PERSPECTIVE》（为什么强化微调能更好地保留先验知识：基于数据的视角）的论文，发表于 ICLR 2026。该研究深入探讨了在大型多模态语言模型（MLLMs）和纯语言模型（LLMs）的后训练阶段，监督微调（SFT）与强化微调（RFT）在任务习得与知识遗忘（Catastrophic Forgetting）方面的显著差异及其内在机制。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：SFT 和 RFT 是将大模型适配到下游任务的主流方法。虽然它们在提升特定任务性能方面非常有效，但现有研究往往忽视了微调算法对模型先验知识（Prior Knowledge）保留能力的潜在负面影响。
核心问题：为什么 SFT 在快速习得新任务时往往导致严重的灾难性遗忘，而 RFT 却能在学习新任务的同时较好地保留旧知识？这种差异是源于算法本身的机制，还是源于训练数据的分布特性？
挑战：为了公平评估，需要引入一个在预训练语料中完全不存在、且现有 SOTA 模型无法解决的全新任务。

2. 方法论 (Methodology)

2.1 实验任务：拼图游戏 (Jigsaw Puzzles)

任务设计：作者将图像分割成 $3 \times 3$ 的网格并随机打乱，要求模型输出正确的排列顺序。
新颖性验证：实验表明，包括 GPT-4o 和 Qwen2.5-VL-72B 在内的顶尖模型在零样本（Zero-shot）设置下，解决该任务的准确率接近随机猜测（0.0%），证明这是一个真正的“新任务”，适合作为评估遗忘行为的基准。

2.2 实验设置

模型：基于开源的 Qwen2.5-VL（3B/7B）多模态模型和 Qwen2.5-Instruct（3B/7B）语言模型。
对比策略：
1. SFT (Non-Rea)：直接使用正确答案进行监督微调（无推理过程）。
2. SFT (Rea-4o-Rollout)：使用 GPT-4o 生成的包含推理轨迹（Chain-of-Thought）的数据进行微调。
3. SFT (Rea-GRPO-Rollout)：使用 RFT 模型自身生成的推理轨迹和答案进行微调。
4. RFT (GRPO)：使用基于规则的奖励（Hit, Accuracy, Format）进行强化微调（Group Relative Policy Optimization）。
评估维度：
- 新任务性能：拼图准确率。
- 先验知识保留：在 Grounding（指代理解）、OCR/文档理解、通用 VQA、幻觉检测及大学级多模态推理（MMMU）等基准上的表现。

2.3 理论分析框架：学习动力学 (Learning Dynamics)

作者引入了学习动力学理论，将训练数据对先验知识的影响分解为**幅度（Magnitude）和方向（Direction）**两个维度：

幅度：通过经验神经切线核（eNTK）的范数（ $\|K_t\|_F$ ）来衡量训练样本 $x_u$ 与先验知识样本 $x_v$ 之间的干扰强度。
方向：分析训练样本在模型概率分布中的位置（通过困惑度 PPL 衡量）。
对称性定理：利用学习动力学的对称性（ $\Delta \log \pi(x_v)|_{x_u} \approx \Delta \log \pi(x_u)|_{x_v}$ ），推导出在预训练阶段已赋予高概率（低困惑度）的区域进行微调，对先验知识的破坏更小。

3. 关键发现与结果 (Key Results)

3.1 性能与遗忘的权衡

SFT 的劣势：SFT（尤其是 Non-Rea 数据）能极快地学会拼图任务（仅需几百步），但导致灾难性遗忘。在 Grounding 和 OCR 任务上，性能下降极其剧烈（例如 RefCOCOval 准确率从 88.8% 跌至 6.1%）。
RFT 的优势：RFT 学习速度较慢（需数万次步数），但能学会新任务的同时，在绝大多数先验知识基准上保持性能稳定，遗忘程度显著低于 SFT。
数据的关键作用：当使用 RFT 生成的推理数据（Rea-GRPO-Rollout）来训练 SFT 时，SFT 不仅能快速学会新任务，其遗忘程度也远低于使用 GPT-4o 生成的推理数据（Rea-4o-Rollout）或直接答案数据。这证明数据分布而非算法本身是遗忘的关键因素。

3.2 学习动力学分析

干扰幅度：实验测量显示，Non-Rea 数据与先验知识之间的 eNTK 范数（LBK）最大，意味着干扰最强；Rea-4o-Rollout 次之；Rea-GRPO-Rollout 最小。
干扰方向（困惑度分析）：
- Rea-4o-Rollout：通常位于基座模型的高困惑度（High-PPL）区域，即模型原本不太确定的区域。强行在此区域训练会剧烈改变模型分布，导致遗忘。
- Rea-GRPO-Rollout：自然生成于基座模型的低困惑度（Low-PPL）区域，即模型原本就有一定概率生成的区域。在这些区域进行微调，与先验知识的分布更兼容，干扰更小。
对称性解释：由于学习动力学的对称性，在预训练阶段模型已经“熟悉”（低 PPL）的区域进行强化，不会显著降低模型对先验知识样本的似然度。

3.3 泛化性验证

在纯文本的数学推理（Math Reasoning）和科学问答（Sci-MCQ4）任务上，观察到了完全一致的规律：
- 遗忘严重性排序：Non-Rea > Rea-4o-Rollout > Rea-GRPO-Rollout。
- Rea-GRPO-Rollout 在提升新任务性能的同时，能最好地保留旧任务（GSM8K, MATH-500, IFEval）的能力。

4. 主要贡献 (Contributions)

揭示了数据分布的核心作用：证明了 RFT 之所以能减少遗忘，并非仅仅因为算法的自适应加权，而是因为 RFT 通过主动探索，自然发现了那些与模型先验分布（低困惑度区域）对齐的推理轨迹。利用这些轨迹进行 SFT 同样能实现低遗忘。
提出了基于学习动力学的解释框架：将遗忘现象分解为“干扰幅度”（eNTK 范数）和“干扰方向”（PPL 分布），从理论上解释了为何引入推理轨迹（Reasoning Trajectories）以及为何模型自生成的轨迹比外部模型生成的轨迹更能保留知识。
提供了实用的后训练策略：提出了一种高效的"SFT-RFT 协同”策略——只需进行少量的 RFT 探索（甚至模型尚未完全掌握任务时），收集其生成的推理数据用于 SFT，即可在获得新任务能力的同时，最大程度地保留先验知识。

5. 意义与启示 (Significance)

理论层面：挑战了单纯从算法角度（如正则化、KL 散度惩罚）解释遗忘的传统观点，强调了训练数据分布在持续学习中的决定性作用。
实践层面：
- 对于希望保留模型通用能力的场景，应优先使用模型自身生成的推理数据（Rollouts）而非外部标注数据或纯答案数据进行微调。
- 在构建后训练数据时，应关注数据与基座模型分布的兼容性（低 PPL 区域），避免强行将模型推向其原本不熟悉的分布区域。
- 为构建稳定、可持续的模型后训练流水线（Post-training Pipeline）提供了新的设计思路：利用 RFT 作为数据生成器，为 SFT 提供高质量的、低遗忘的“自洽”数据。

总结：该论文通过严谨的实验和理论分析，论证了 RFT 在保留先验知识方面的优势本质上源于其生成的训练数据分布与模型先验知识的高度对齐。这一发现为未来设计更稳定、更少遗忘的大模型后训练方法提供了重要的理论依据和实践指导。