SPEED-RL: Faster Training of Reasoning Models via Online Curriculum Learning

该论文提出了 SPEED-RL 方法,通过自适应在线课程学习动态筛选中等难度的提示词进行强化训练,在无需人工调优的情况下将推理模型的训练速度提升了 2 至 6 倍,同时保持了模型精度。

Ruiqi Zhang, Daman Arora, Song Mei, Andrea Zanette

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在教一个超级聪明的机器人(也就是大语言模型)如何像数学家或逻辑学家那样思考

通常,我们教它的方法是:给它看成千上万道题目,不管题目是“一加一等于几”这种幼儿园级别的,还是“如何解开量子物理谜题”这种博士级别的,我们都是一视同仁地让它做,做对了就奖励,做错了就惩罚。这就叫“强化学习(RL)”。

但这有个大问题: 这种方法太慢了,就像让一个刚学会走路的孩子去跑马拉松,或者让一个博士去反复做"1+1"的算术题。大部分时间都浪费在了太简单或太难的题目上,效率极低,而且非常烧钱(因为需要大量的计算资源)。

这篇论文提出的 SPEED-RL 方法,就是为了解决这个“慢”和“贵”的问题。我们可以把它想象成一位超级懂行的私人教练

1. 核心秘诀:只挑“跳一跳够得着”的题目

这位教练(SPEED 算法)有一个绝招:它不再随机发题,而是会实时评估每一道题的难度。

  • 太简单的题(比如"1+1"):机器人早就学会了,再做就是浪费时间,教练直接跳过。
  • 太难的题(比如“解开宇宙终极谜题”):机器人完全不懂,做错了只会让它感到挫败,学不到东西,教练也直接跳过。
  • 中间难度的题(比如“稍微有点挑战,但努努力就能解出来”):这才是黄金题目

这就好比教孩子骑自行车:

  • 在平地上骑(太简单):学不到新技巧。
  • 直接上悬崖(太难):会摔得很惨,甚至不敢骑了。
  • 在稍微有点坡度的路上骑(中间难度):孩子需要稍微用力蹬,保持平衡,这时候进步最快!

2. 为什么这样更快?(信号与噪音)

论文里提到了一个听起来很专业的词:“信噪比”。我们可以用收音机来打比方:

  • 如果让机器人做太简单的题,它做得太顺了,就像收音机里全是“滋滋”的白噪音,听不到任何有用的指导信号(因为它本来就会)。
  • 如果做太难的题,它完全乱猜,就像收音机里全是杂音,根本不知道哪里错了。
  • 而做中间难度的题,就像收音机里传来了清晰的音乐。机器人能清楚地听到:“哦,这一步我走对了,下一步我走偏了。”这种清晰的反馈信号,让它的学习速度瞬间爆发。

3. 成果如何?

使用这位“私人教练”后,效果惊人:

  • 速度快了 2 到 6 倍:以前需要训练一个月的模型,现在几天甚至几小时就能搞定。
  • 不用人工调参:教练是自动的,不需要人类专家去手动设置规则,它自己知道该挑什么题。
  • 成绩不打折:虽然训练时间短了,但最后机器人的聪明程度(准确率)一点都没少,甚至因为学得更扎实,表现得更好。

总结

简单来说,SPEED-RL 就是给 AI 训练装上了一个智能过滤器。它不再让 AI 在题海里盲目地“死磕”,而是像一位高明的老师,只挑选那些最能激发潜力、最能带来进步的“黄金题目”来训练。

这就好比把原本漫无目的的“大海捞针”,变成了精准的“按图索骥”,让 AI 的进化之路变得既快又稳。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →