DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型（AI）变得更聪明的新方法，叫做 DeReason。为了让你轻松理解，我们可以把训练 AI 的过程想象成培养一个天才学生。

1. 核心问题：为什么现在的“特训”有点乱？

过去，大家发现用“强化学习”（RL，也就是让 AI 自己做题、对答案、得奖励）能极大地提升 AI 的推理能力（比如做数学题、写代码）。这就像让一个学生直接去参加奥林匹克竞赛，在不断的试错和奖励中，他学会了复杂的解题技巧。

但是，研究人员发现了一个大问题：
如果直接把一个还没怎么读过书的基础学生（Base Model）扔进“奥林匹克竞赛”里让他自学，效率极低，效果很差。他连基本的公式都记不住，根本没法通过“试错”来学习。

相反，如果先让他跟着老师读课本、背公式（这叫“监督微调”，SFT），他的基础会打得很牢。

现在的矛盾是：

只靠“背课本”（SFT）：基础好，但遇到特别难的、需要灵活变通的题目就卡住了。
只靠“死磕难题”（RL）：没基础的学生根本学不会，效率极低。
以前的做法：把题目随机分给“背课本”阶段和“死磕难题”阶段。这就像让刚背完乘法口诀的学生去解微积分，或者让准备考奥赛的学生去背简单的单词，资源浪费严重。

2. DeReason 的解决方案：因材施教的“分班策略”

这篇论文提出的 DeReason，核心思想就是把题目按难度分类，让不同的训练阶段做不同的事。

我们可以把这个过程想象成学校里的“分班教学” + “精英特训”：

第一步：给题目“打分”（难度分级）

AI 先当一次“阅卷老师”，给每一道训练题目打分（1 到 5 分）：

1-3 分（简单题）：主要是考知识点记忆的。比如“水的化学式是什么？”或者简单的计算。
4-5 分（难题）：需要多步推理、逻辑推导的。比如复杂的物理应用题，或者需要创造性思维的逻辑题。

第二步：分阶段训练（课程表安排）

阶段一：SFT（基础班）—— 专攻“简单题”
- 做什么：把那些简单、覆盖面广的题目（1-3 分）拿出来，让 AI 像学生背课文一样，学习标准答案。
- 目的：建立知识地基。就像学生先要把历史年代、物理公式、生物常识都背得滚瓜烂熟。这时候不需要它去“发明”新解法，只需要它“学会”现有的知识。
- 比喻：这是“填鸭式”教学，但填的是基础营养，效率最高。
阶段二：RL（精英班）—— 专攻“难题”
- 做什么：把那些最难、最需要推理的题目（4-5 分）留下来，让已经背好基础知识的 AI 去“死磕”。
- 目的：激发推理潜能。这时候 AI 已经懂了公式，它需要通过不断的尝试、试错、自我修正，来学会如何把多个知识点串联起来解决复杂问题。
- 比喻：这是“奥数集训营”。学生已经具备了基础，现在教练（奖励机制）引导他去探索解题的多种路径，培养“举一反三”的能力。

3. 为什么这样做更好？（实验结果）

研究人员做了很多实验，发现这种“分班策略”效果惊人：

效率翻倍：以前把题目随机分，AI 在基础班浪费时间去解难题，在精英班又因为基础不牢而学不会。现在各就各位，学得快，练得准。
全面超越：
- 在简单题上，它和只背课本的模型一样好（因为基础打得牢）。
- 在超难题上，它比只背课本的模型强得多，甚至比那些只靠“死磕”的模型强得多。
行为变化：
- 只背课本的模型：回答问题啰嗦，像背书。
- 只死磕的模型：容易走火入魔，乱猜。
- DeReason 模型：既保留了知识的准确性，又学会了在遇到难题时，像侦探一样一步步推导，回答更加精炼、逻辑更清晰。

4. 总结：一句话讲清楚

DeReason 就是给 AI 制定了一套科学的“成长课程表”：
先让它在基础班把简单知识背得滚瓜烂熟（SFT），然后再送它去精英班专门攻克高难度推理题（RL）。

这种“先打基础，再练绝招”的分阶段、分难度策略，比以前那种“一锅乱炖”的随机训练方法，能让 AI 在科学、数学和逻辑推理上变得更聪明、更高效。

这就好比教孩子：你不能指望他还没学会走路就去跑马拉松，也不能让他只会在操场上散步。你得先让他练好走路（SFT），再带他去跑马拉松（RL），而且只让他跑那些适合他水平的赛道。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于大语言模型（LLM）在通用科学（STEM）推理任务中后训练策略的论文总结。论文提出了名为 DeReason 的新方法，旨在解决监督微调（SFT）与强化学习（RL）在通用推理领域如何有效结合的问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现状： 基于可验证奖励的强化学习（RLVR）在数学和代码推理领域取得了巨大成功（如 OpenAI o1, DeepSeek-R1），能够激发模型的思维链（Chain-of-Thought）能力。
挑战： 将 RLVR 扩展到更广泛的通用 STEM 领域（如物理、生物、历史等）时，SFT 与 RL 的协同作用尚不明确。
核心发现： 作者通过受控实验发现，在通用 STEM 领域，直接将 RL 应用于基座模型（Base Model）是样本效率极低且效果不佳的。相比之下，使用中等质量响应进行 SFT 往往能取得更好的性能。
关键问题： 既然 SFT 和 RL 具有互补性（SFT 擅长知识获取，RL 擅长探索复杂推理），在通用推理任务中，应如何根据数据难度在两个训练阶段之间分配数据？

2. 方法论：DeReason (Methodology)

作者提出了 DeReason，一种基于难度的数据解耦（Data Decoupling）课程学习策略。其核心思想是将训练数据按“推理强度”（Reasoning Intensity）进行划分，分别用于 SFT 和 RL 阶段。

难度评估 (Difficulty Estimation)：
- 利用一个与策略模型同规模的指令微调模型（LLM-based Scoring）对每个训练样本进行打分（1-5 分）。
- 评分标准： 考虑推理步骤数量、先验领域知识需求及出错可能性。
- 低分 (1-3 分)： 主要涉及知识回忆或简单事实应用。
- 高分 (4-5 分)： 需要多步推导和复杂推理。
数据划分 (Data Partitioning)：
- SFT 子集 ( $D_{SFT}$ )： 分配低难度（低推理强度）数据。
  - 目的： 利用 SFT 高效地蒸馏和巩固广泛的领域基础知识。
- RL 子集 ( $D_{RL}$ )： 分配高难度（高推理强度）数据。
  - 目的： 利用 RL 在复杂问题上探索超越教师演示的推理路径，突破性能瓶颈。
训练流程 (Curriculum Training)：
1. 在 $D_{SFT}$ 上进行监督微调（SFT），获得初始策略 $\pi_{SFT}$ 。
2. 基于 $\pi_{SFT}$ ，在 $D_{RL}$ 上应用 GRPO（Group Relative Policy Optimization）进行强化学习。

3. 主要贡献 (Key Contributions)

系统性分析 SFT 与 RL 的相互作用： 证明了在通用 STEM 领域，对于小模型，SFT 是不可或缺的冷启动机制，其性能显著优于直接应用纯 RL。
提出 DeReason 课程策略： 提出了一种新颖的解耦训练策略，即“在简单/广泛数据上 SFT，在精选困难数据上 RL"。实验表明，这种基于难度的划分显著优于随机划分或纯 SFT/纯 RL 基线。
细粒度的行为分析： 深入分析了训练动态，包括不同难度分布的影响、策略熵（Policy Entropy）的变化、响应长度的演变以及奖励优化过程，揭示了 SFT 和 RL 如何以不同方式塑造模型行为。

4. 实验结果 (Results)

实验设置： 使用 Qwen3-4B 作为基座模型，在 WebInstruct-Verified 和 Webscale-RL 两个数据集上进行训练。评估基准包括 MMLU-Pro, GPQA-Diamond, SuperGPQA, BBEH 以及数学基准（AIME, MATH）。
主要发现：
- SFT vs. RL： 在相同数据量下，SFT 在通用 STEM 和数学领域均一致地优于直接 RL。
- DeReason 优势： 采用"SFT（易）+ RL（难）”策略的模型在 4B 参数规模下取得了最佳性能，显著超越了纯 SFT、纯 RL 以及随机数据划分的 SFT-then-RL 基线。
- 基准表现： 在 BBEH（需要复杂推理）等困难基准上，DeReason 相比 SFT-only 基线有显著提升；在 MMLU-Pro 等较易基准上，性能与 SFT-only 持平或略优。
- 数学任务： 在 AIME 和 MATH 任务上也观察到了类似的提升趋势。
行为分析洞察：
- 响应长度： 从 SFT 检查点开始，RL 主要起到“压缩”作用，减少冗余但保持高质量输出的长度；而从基座模型开始，RL 会导致响应长度随难度分数的增加而显著发散。
- 熵值变化： 基座模型初始熵值高，RL 训练初期熵值急剧下降；SFT 初始模型熵值较低，RL 训练过程中熵值下降较缓，最终收敛到更确定的策略。

5. 意义与影响 (Significance)

理论意义： 纠正了"RL 总是优于 SFT"的片面认知，明确了在通用推理领域，SFT 负责知识奠基，RL 负责推理突破的分工机制。
实践价值： DeReason 是一种纯数据层面的策略，不依赖于对 SFT 或 RL 算法本身的修改。这意味着它可以作为即插即用的模块，直接集成到现有的各种训练框架和工具包中，无需复杂的算法调整。
通用性： 为通用 STEM 领域的后训练（Post-training）提供了一套高效、可泛化的“食谱”，解决了如何将有限的高质量推理数据与广泛的领域知识数据合理分配的问题。

总结： 本文通过严谨的受控实验揭示了 SFT 和 RL 在通用推理中的互补性，并提出了 DeReason 这一基于难度的数据解耦策略。该方法通过“先学知识（SFT 处理易题），后练推理（RL 处理难题）”的课程设计，显著提升了小参数模型在复杂 STEM 任务上的表现，为未来大模型的后训练提供了重要的方法论指导。

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

1. 核心问题：为什么现在的“特训”有点乱？

2. DeReason 的解决方案：因材施教的“分班策略”

第一步：给题目“打分”（难度分级）

第二步：分阶段训练（课程表安排）

3. 为什么这样做更好？（实验结果）

4. 总结：一句话讲清楚

1. 研究背景与问题 (Problem)

2. 方法论：DeReason (Methodology)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models

Artificial Intelligence for Sentiment Analysis of Persian Poetry