Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 E2H Reasoner（从易到难推理者）的新方法，旨在让大型语言模型（LLM）变得更聪明，特别是提升它们的逻辑推理能力。

想象一下，你正在教一个刚出生的婴儿学走路。

1. 核心问题：为什么直接教“跑”行不通？

目前的 AI 模型（比如 DeepSeek-R1 或 OpenAI o1）已经通过一种叫“强化学习”（RL）的方法，学会了一些复杂的数学和编程任务。这就像直接让婴儿去跑马拉松。

现状：如果直接给婴儿（AI）看最难的任务（比如复杂的数学题），它就像看着马拉松赛道一样，完全不知道从何下手。因为奖励（做对了给糖）太稀缺了，它试了几次都失败，很快就放弃了，或者学会了“作弊”（比如乱猜一个答案）。
痛点：直接教很难的任务，效率极低，模型容易“死记硬背”而不是真正理解。

2. 解决方案：像学步车一样的“课程学习” (Curriculum Learning)

作者提出了一个灵感来源于人类学习的概念：从易到难 (Easy to Hard, E2H)。

这就好比教孩子：

先学爬（简单任务）：建立基础肌肉和平衡感。
再扶着走（中等任务）：增加一点难度，学习如何协调。
最后跑（困难任务）：当基础打牢了，跑起来就水到渠成。

E2H Reasoner 就是这样一个“智能教练”。它不会一开始就扔给孩子一道奥数题，而是把任务分成四个等级：

** trivial ( trivial/琐碎)**：超级简单，比如"1+1 等于几”。
Easy (简单)：稍微动点脑子。
Medium (中等)：需要多步思考。
Hard (困难)：真正的挑战。

3. 关键创新：如何安排“课程表”？

仅仅把任务分好类还不够，怎么安排学习顺序才是关键。论文提出了两种聪明的“排课”策略：

策略一：余弦调度 (Cosine Scheduling)
- 比喻：就像下坡滑雪。一开始你大部分时间都在平缓的坡底（简单任务）练习，随着时间推移，你滑行的速度越来越快，坡度越来越陡，慢慢过渡到山顶的陡坡（困难任务）。
- 适用：适合那些模型稍微练练就能掌握大部分技能的任务。
策略二：高斯调度 (Gaussian Scheduling)
- 比喻：就像调光台灯。刚开始灯光很亮（大量简单任务），让你看清路；但灯光会迅速变暗，把注意力快速转移到更暗、更复杂的区域（困难任务）。
- 为什么需要这个？ 如果一直让模型做太简单的事，它会产生“依赖症”，只会做简单的，遇到难题就废了（这叫“过拟合”）。高斯调度能防止模型在简单任务上“躺平”，强迫它尽快面对挑战。

4. 实验结果：小模型也能变“大神”

作者用这个方法来训练一些相对较小的模型（比如只有 15 亿或 30 亿参数的模型，相当于“小学生”级别）。

结果：这些原本连简单逻辑题都做不好的小模型，经过 E2H 训练后，竟然能解决以前完全做不出来的难题（比如复杂的数学竞赛题或逻辑规划）。
对比：如果不分难易直接练，或者像传统方法那样死板地先练完简单的再练难的，效果都不如 E2H。E2H 让模型不仅学会了“怎么做”，还学会了“怎么思考”。

5. 理论证明：为什么这招管用？

论文不仅做了实验，还用了数学公式证明了：

省资源：用“从易到难”的方法，模型需要的训练数据量比“直接硬啃”要少得多。就像学数学，先学加减乘除再学微积分，比直接背微积分公式要快得多。
更稳：这种方法能保证模型最终学到的能力是扎实的，而不是运气好蒙对的。

总结

这篇论文的核心思想就是：不要试图一口吃成个胖子。

通过设计一个智能的“从易到难”训练课程，让 AI 像人类一样，先建立基础，再逐步挑战高难度，最终让原本“笨笨”的小模型也能拥有强大的逻辑推理能力。这不仅让 AI 更聪明，也让训练它们变得更高效、更省钱。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于通过**课程强化学习（Curriculum Reinforcement Learning, CRL）**提升大语言模型（LLM）推理能力的会议论文，发表于 ICLR 2026。论文提出了名为 E2H Reasoner（从易到难推理器）的方法，旨在解决直接对困难任务进行强化学习（RL）时面临的奖励稀疏和分布偏移问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

推理能力的定义模糊：现有的 LLM 推理往往被等同于生成中间步骤（思维链），但这可能只是表面模式的匹配，而非真正的泛化推理。真正的推理应定义为从简单任务中提取原则并应用到更复杂任务的能力。
强化学习（RL）的局限性：虽然 DeepSeek-R1 等模型展示了 RL 在数学和代码任务上的潜力，但直接对高难度任务进行 RL 后训练效果不佳。
- 奖励稀疏：RL 通常只在最终答案正确时给予奖励，对于零样本表现较差的模型，很难获得有效的学习信号。
- 分布偏移（Distribution Gap）：预训练数据分布与高难度目标任务分布之间存在巨大差异，直接训练容易导致模型过拟合或无法收敛。
现有课程学习的不足：虽然课程学习（从易到难）已被引入 RL，但现有方法多采用固定顺序切换（如先练完所有简单题再练难题），容易导致任务遗忘（忘记简单任务）或过拟合（在简单任务上钻空子，即 Reward Hacking）。

2. 方法论 (Methodology)

作者提出了 E2H Reasoner，一种基于概率调度机制的课程强化学习框架。

2.1 任务分解 (Task Decomposition)

将训练数据根据难度分解为四个层级：

Trivial ( trivial)、Easy (简单)、Medium (中等)、Hard (困难)。
难度定义：
- 对于有标注的数据集（如 Blocksworld, Countdown, MATH），利用人工标注的指标（如计划长度、操作数、问题等级）划分。
- 对于无标注数据集（如 GSM8K, AQuA），利用基座模型在 CoT 提示下的错误率（Error Rate）进行自动分桶（四分位数划分）。
目的：通过中间阶段 $d_k$ 插值预训练分布 $d_0$ 和目标分布 $d_K$ ，减少分布偏移，让模型逐步构建核心技能。

2.2 训练调度器 (Training Schedulers)

为了解决“任务遗忘”和“过拟合简单任务”的问题，作者设计了两种概率调度策略，替代传统的固定顺序切换：

余弦调度 (E2H-C, Cosine Scheduling)：
- 使用余弦函数平滑地调整采样概率。
- 初期主要采样简单任务，随着训练步数增加，逐渐向困难任务过渡。
- 适用于模型在各难度层级表现相对均衡的场景。
高斯调度 (E2H-G, Gaussian Scheduling)：
- 受高斯混合模型启发，将不同难度的任务视为一维空间中的高斯分布。
- 通过两个超参数（方差 $\sigma$ 和移动速度 $\beta$ ）控制采样概率。
- 核心优势：可以设计为在初期快速覆盖简单任务以建立基础，随后迅速将采样重心转移到困难任务，避免模型在简单任务上过拟合（Reward Hacking），特别适合奖励稀疏的困难任务。

2.3 理论分析 (Theoretical Analysis)

基于**近似策略迭代（Approximate Policy Iteration, API）**框架进行了理论推导：

收敛性保证：证明了在课程学习框架下，最终策略的性能差距有界。
样本复杂度分析：推导了有限样本下的复杂度界限。理论证明，在适当设计的课程下（即任务难度逐渐增加且误差分配合理），CRL 达到相同精度所需的总样本数少于直接学习（Direct Learning）。公式推导表明， $M_{CRL} < M_{Direct}$ 的条件在合理的课程设计下是成立的。

3. 关键贡献 (Key Contributions)

提出了 E2H Reasoner：一种结合任务分解和概率调度（余弦/高斯）的 CRL 方法，有效解决了 LLM 在困难推理任务上的 RL 训练难题。
理论突破：首次为 LLM 的课程强化学习提供了基于 API 的收敛性保证和有限样本复杂度分析，从理论上证明了 CRL 比直接 RL 具有更高的样本效率。
实证验证：在多个基准测试（Blocksworld, Countdown, MATH, GSM8K, AQuA）上，E2H 方法显著优于基线模型（包括直接 RL、传统课程学习、Self-Evolve 等），特别是在**困难（Hard）和分布外（OOD）**任务上表现突出。
小模型推理能力：证明了即使是小参数量的模型（如 1.5B, 3B），通过 E2H 也能学会解决其在零样本设置下完全无法解决的复杂推理任务。

4. 实验结果 (Results)

任务分解的有效性：表 1 显示，包含“简单”和“平凡”任务的训练能显著提升模型在困难任务上的表现，证明了核心技能迁移的重要性。
调度策略对比：
- Balanced（平衡采样）：作为强基线，但缺乏结构，难以在困难任务上取得最优。
- CL（传统课程）：容易导致遗忘或过拟合。
- E2H-G：在 Blocksworld 等稀疏奖励任务上表现最佳，因为它能快速减少对简单任务的采样，防止过拟合。
- E2H-C：在 MATH 等任务上表现良好。
泛化能力：E2H 训练后的模型在 OOD（分布外）测试集上（如 AIME24, OlympiadBench）表现出更强的泛化能力，优于直接训练困难样本的模型。
与 DAPO 的结合：E2H 与 DAPO（一种过滤极难/极易样本的 RL 算法）结合后，进一步减少了训练中出现“零优势（zero advantage）”批次的比例，两者具有互补性。

5. 意义与影响 (Significance)

重新定义推理训练：挑战了“小模型无法推理”或“直接训练困难样本”的假设，证明了通过科学的课程安排，小模型也能掌握复杂的推理原则。
理论指导实践：将课程学习的经验性做法上升到了理论高度，为未来的 LLM 后训练提供了样本效率优化的理论依据。
可扩展性：该方法不依赖特定的人工标注，可以通过模型自身的错误率自动构建课程，具有广泛的适用性。
社会影响：提升了小参数模型在医疗、教育、法律等关键领域的推理决策能力，降低了高级 AI 能力的获取门槛。

总结：这篇论文通过引入“从易到难”的概率化课程学习策略，结合严谨的理论分析，成功解决了 LLM 在强化学习后训练中面临的奖励稀疏和分布偏移问题，显著提升了模型在复杂推理任务上的表现和泛化能力。