DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

该论文提出了 DeReason 方法,通过基于推理强度的难度感知课程将训练数据解耦,将广泛的基础知识分配给监督微调(SFT)阶段,而将高难度推理问题保留给强化学习(RL)阶段,从而在通用 STEM 领域显著提升了模型性能。

Hanxu Hu, Yuxuan Wang, Maggie Huan, Jannis Vamvas, Yinya Huang, Zhijiang Guo, Rico Sennrich

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型(AI)变得更聪明的新方法,叫做 DeReason。为了让你轻松理解,我们可以把训练 AI 的过程想象成培养一个天才学生

1. 核心问题:为什么现在的“特训”有点乱?

过去,大家发现用“强化学习”(RL,也就是让 AI 自己做题、对答案、得奖励)能极大地提升 AI 的推理能力(比如做数学题、写代码)。这就像让一个学生直接去参加奥林匹克竞赛,在不断的试错和奖励中,他学会了复杂的解题技巧。

但是,研究人员发现了一个大问题:
如果直接把一个还没怎么读过书的基础学生(Base Model)扔进“奥林匹克竞赛”里让他自学,效率极低,效果很差。他连基本的公式都记不住,根本没法通过“试错”来学习。

相反,如果先让他跟着老师读课本、背公式(这叫“监督微调”,SFT),他的基础会打得很牢。

现在的矛盾是

  • 只靠“背课本”(SFT):基础好,但遇到特别难的、需要灵活变通的题目就卡住了。
  • 只靠“死磕难题”(RL):没基础的学生根本学不会,效率极低。
  • 以前的做法:把题目随机分给“背课本”阶段和“死磕难题”阶段。这就像让刚背完乘法口诀的学生去解微积分,或者让准备考奥赛的学生去背简单的单词,资源浪费严重。

2. DeReason 的解决方案:因材施教的“分班策略”

这篇论文提出的 DeReason,核心思想就是把题目按难度分类,让不同的训练阶段做不同的事

我们可以把这个过程想象成学校里的“分班教学” + “精英特训”

第一步:给题目“打分”(难度分级)

AI 先当一次“阅卷老师”,给每一道训练题目打分(1 到 5 分):

  • 1-3 分(简单题):主要是考知识点记忆的。比如“水的化学式是什么?”或者简单的计算。
  • 4-5 分(难题):需要多步推理、逻辑推导的。比如复杂的物理应用题,或者需要创造性思维的逻辑题。

第二步:分阶段训练(课程表安排)

  • 阶段一:SFT(基础班)—— 专攻“简单题”

    • 做什么:把那些简单、覆盖面广的题目(1-3 分)拿出来,让 AI 像学生背课文一样,学习标准答案。
    • 目的:建立知识地基。就像学生先要把历史年代、物理公式、生物常识都背得滚瓜烂熟。这时候不需要它去“发明”新解法,只需要它“学会”现有的知识。
    • 比喻:这是“填鸭式”教学,但填的是基础营养,效率最高。
  • 阶段二:RL(精英班)—— 专攻“难题”

    • 做什么:把那些最难、最需要推理的题目(4-5 分)留下来,让已经背好基础知识的 AI 去“死磕”。
    • 目的:激发推理潜能。这时候 AI 已经懂了公式,它需要通过不断的尝试、试错、自我修正,来学会如何把多个知识点串联起来解决复杂问题。
    • 比喻:这是“奥数集训营”。学生已经具备了基础,现在教练(奖励机制)引导他去探索解题的多种路径,培养“举一反三”的能力。

3. 为什么这样做更好?(实验结果)

研究人员做了很多实验,发现这种“分班策略”效果惊人:

  1. 效率翻倍:以前把题目随机分,AI 在基础班浪费时间去解难题,在精英班又因为基础不牢而学不会。现在各就各位,学得快,练得准。
  2. 全面超越
    • 简单题上,它和只背课本的模型一样好(因为基础打得牢)。
    • 超难题上,它比只背课本的模型强得多,甚至比那些只靠“死磕”的模型强得多。
  3. 行为变化
    • 只背课本的模型:回答问题啰嗦,像背书。
    • 只死磕的模型:容易走火入魔,乱猜。
    • DeReason 模型:既保留了知识的准确性,又学会了在遇到难题时,像侦探一样一步步推导,回答更加精炼、逻辑更清晰。

4. 总结:一句话讲清楚

DeReason 就是给 AI 制定了一套科学的“成长课程表”:
先让它在基础班简单知识背得滚瓜烂熟(SFT),然后再送它去精英班专门攻克高难度推理题(RL)。

这种“先打基础,再练绝招”的分阶段、分难度策略,比以前那种“一锅乱炖”的随机训练方法,能让 AI 在科学、数学和逻辑推理上变得更聪明、更高效

这就好比教孩子:你不能指望他还没学会走路就去跑马拉松,也不能让他只会在操场上散步。你得先让他练好走路(SFT),再带他去跑马拉松(RL),而且只让他跑那些适合他水平的赛道