Shorten After You're Right: Lazy Length Penalties for Reasoning RL

该论文提出了一种无需额外训练阶段的强化学习奖励机制,通过直接优化推理过程,在显著缩短大语言模型推理路径(如逻辑推理减少 40%、数学问题减少 33%)的同时保持或提升了任务性能。

Danlong Yuan, Tian Xie, Shaohan Huang, Zhuocheng Gong, Huishuai Zhang, Chong Luo, Furu Wei, Dongyan Zhao

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲了一个关于**“如何让 AI 变得更聪明且更勤快”**的故事。

想象一下,你正在训练一个非常聪明的**“解题小天才”**(这就是现在的长推理大模型)。这个小天才在解决复杂的数学题或逻辑题时,非常擅长思考,但它有一个坏习惯:它喜欢“想太多”

🌟 核心问题:小天才的“啰嗦病”

以前,为了让小天才做对题,我们鼓励它多思考。结果它真的开始过度思考了:

  • 它会在纸上写满几千字的推导过程。
  • 它可能会反复检查同一个步骤,或者在无关紧要的地方绕圈子。
  • 后果:虽然它做对题了,但太慢了(推理时间长),而且太费钱(消耗大量电脑内存和算力)。更糟糕的是,在训练过程中,它写的这些“废话”越多,训练它的速度就越慢,就像让一个学生把作业抄十遍才能学会一样,效率极低。

❌ 以前的笨办法:直接“掐脖子”

以前有人想:“既然它啰嗦,那就直接惩罚它,让它少写点字。”
但这招行不通

  • 比喻:这就像在小学生刚开始学走路时,就强行告诉他“不许多走一步,必须一步到位”。
  • 结果:小天才吓得不敢思考了,为了少写点字,它开始胡乱猜答案,或者只写几个字就交卷。虽然字数少了,但正确率暴跌,因为它还没学会怎么思考,就被迫“偷懒”了。

✅ 这篇论文的妙招:“懒洋洋的惩罚” (Lazy Length Penalty)

作者提出了一种叫 Short-RL 的新方法。它的核心思想是:“先保证做对,再考虑写短;而且要在它学稳了之后,再让它变短。”

他们给小天才设计了一个**“三关检查机制”**,只有同时满足这三个条件,才会开始惩罚它写得太长:

  1. 第一关:做对了吗?(RIGHTGATE)

    • 规则:只有当小天才完全做对题目时,我们才开始管它写得多长。
    • 比喻:如果它连题都做错了,说明它还在“探索”阶段,这时候我们不管它写多少字,鼓励它大胆尝试。只有做对了,我们才说:“嘿,既然你会了,下次能不能写得简洁点?”
  2. 第二关:是不是真的多余?(SLACKBAND)

    • 规则:我们允许它比“最短的正确答案”多写一点点(比如多写 200 个字),这部分是宽容区,不惩罚。只有超过这个“宽容区”的废话,才扣分。
    • 比喻:就像老师批改作文,如果学生比标准答案多写了两行解释,老师会点头说“不错,很详细”;但如果学生写了十页纸,老师才会说:“太啰嗦了,下次精简点。”
  3. 第三关:学稳了吗?(STABLESWITCH)

    • 规则:只有当小天才的正确率已经稳定在一个高水平时,我们才开启“变短模式”。
    • 比喻:在刚开学时,我们允许学生慢慢摸索,写得长一点没关系。等它已经是个“学霸”了,我们才要求它“言简意赅”。如果在它还不会做题时就逼它写短,它会崩溃的。

🚀 效果如何?

这套方法的效果非常惊人:

  • 逻辑题领域:小天才的解题步骤平均缩短了 40%,而且正确率反而提高了 14 分
  • 数学题领域:解题步骤平均缩短了 33%,正确率依然保持很高。
  • 省钱又省时:因为小天才在训练过程中写的“废话”少了,训练它的电脑算力消耗大幅降低,训练速度也变快了。

💡 总结

这篇论文就像给 AI 请了一位**“高明的教练”
以前的教练只会喊:“少说话!快做题!”结果把学生吓傻了。
现在的教练(Short-RL)则说:“先别急,先把题做对。等你稳了,我再教你
怎么用最少的笔墨把题讲清楚**。”

这种方法既保留了 AI 强大的思考能力,又去掉了它的“啰嗦病”,让它变得更聪明、更快速、更经济

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →