Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

该论文提出了一种名为 E2H Reasoner 的强化学习方法,通过从易到难的课程学习策略调度任务,在理论上证明了其样本效率优势,并在实验中显著提升了小型语言模型在数学和代码等推理任务上的表现。

Shubham Parashar, Shurui Gui, Xiner Li, Hongyi Ling, Sushil Vemuri, Blake Olson, Eric Li, Yu Zhang, James Caverlee, Dileep Kalathil, Shuiwang Ji

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 E2H Reasoner(从易到难推理者)的新方法,旨在让大型语言模型(LLM)变得更聪明,特别是提升它们的逻辑推理能力

想象一下,你正在教一个刚出生的婴儿学走路。

1. 核心问题:为什么直接教“跑”行不通?

目前的 AI 模型(比如 DeepSeek-R1 或 OpenAI o1)已经通过一种叫“强化学习”(RL)的方法,学会了一些复杂的数学和编程任务。这就像直接让婴儿去跑马拉松。

  • 现状:如果直接给婴儿(AI)看最难的任务(比如复杂的数学题),它就像看着马拉松赛道一样,完全不知道从何下手。因为奖励(做对了给糖)太稀缺了,它试了几次都失败,很快就放弃了,或者学会了“作弊”(比如乱猜一个答案)。
  • 痛点:直接教很难的任务,效率极低,模型容易“死记硬背”而不是真正理解。

2. 解决方案:像学步车一样的“课程学习” (Curriculum Learning)

作者提出了一个灵感来源于人类学习的概念:从易到难 (Easy to Hard, E2H)

这就好比教孩子:

  1. 先学爬(简单任务):建立基础肌肉和平衡感。
  2. 再扶着走(中等任务):增加一点难度,学习如何协调。
  3. 最后跑(困难任务):当基础打牢了,跑起来就水到渠成。

E2H Reasoner 就是这样一个“智能教练”。它不会一开始就扔给孩子一道奥数题,而是把任务分成四个等级:

  • ** trivial ( trivial/琐碎)**:超级简单,比如"1+1 等于几”。
  • Easy (简单):稍微动点脑子。
  • Medium (中等):需要多步思考。
  • Hard (困难):真正的挑战。

3. 关键创新:如何安排“课程表”?

仅仅把任务分好类还不够,怎么安排学习顺序才是关键。论文提出了两种聪明的“排课”策略:

  • 策略一:余弦调度 (Cosine Scheduling)

    • 比喻:就像下坡滑雪。一开始你大部分时间都在平缓的坡底(简单任务)练习,随着时间推移,你滑行的速度越来越快,坡度越来越陡,慢慢过渡到山顶的陡坡(困难任务)。
    • 适用:适合那些模型稍微练练就能掌握大部分技能的任务。
  • 策略二:高斯调度 (Gaussian Scheduling)

    • 比喻:就像调光台灯。刚开始灯光很亮(大量简单任务),让你看清路;但灯光会迅速变暗,把注意力快速转移到更暗、更复杂的区域(困难任务)。
    • 为什么需要这个? 如果一直让模型做太简单的事,它会产生“依赖症”,只会做简单的,遇到难题就废了(这叫“过拟合”)。高斯调度能防止模型在简单任务上“躺平”,强迫它尽快面对挑战。

4. 实验结果:小模型也能变“大神”

作者用这个方法来训练一些相对较小的模型(比如只有 15 亿或 30 亿参数的模型,相当于“小学生”级别)。

  • 结果:这些原本连简单逻辑题都做不好的小模型,经过 E2H 训练后,竟然能解决以前完全做不出来的难题(比如复杂的数学竞赛题或逻辑规划)。
  • 对比:如果不分难易直接练,或者像传统方法那样死板地先练完简单的再练难的,效果都不如 E2H。E2H 让模型不仅学会了“怎么做”,还学会了“怎么思考”。

5. 理论证明:为什么这招管用?

论文不仅做了实验,还用了数学公式证明了:

  • 省资源:用“从易到难”的方法,模型需要的训练数据量比“直接硬啃”要少得多。就像学数学,先学加减乘除再学微积分,比直接背微积分公式要快得多。
  • 更稳:这种方法能保证模型最终学到的能力是扎实的,而不是运气好蒙对的。

总结

这篇论文的核心思想就是:不要试图一口吃成个胖子。

通过设计一个智能的“从易到难”训练课程,让 AI 像人类一样,先建立基础,再逐步挑战高难度,最终让原本“笨笨”的小模型也能拥有强大的逻辑推理能力。这不仅让 AI 更聪明,也让训练它们变得更高效、更省钱。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →