DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

该论文针对大推理模型因过度思考导致的计算冗余问题,提出了一种将正确与错误样本的长度奖励解耦的“解耦奖励策略优化(DRPO)”框架,通过仅对正确推理轨迹进行组内归一化来避免其被错误样本抑制,从而在显著缩短推理长度的同时保持了模型性能。

Gang Li, Yan Chen, Ming Lin, Tianbao Yang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DRPO 的新方法,旨在解决当前大型人工智能(AI)模型在回答问题时"想太多"(Overthinking)的毛病。

为了让你轻松理解,我们可以把 AI 模型想象成一个正在备考的学生,把回答问题想象成做数学题

1. 现状:聪明的“学渣”与“过度思考”

现在的 AI 模型(比如 DeepSeek-R1)非常聪明,它们通过“强化学习”学会了像人类一样一步步推理(Chain-of-Thought)。

  • 问题出在哪? 它们太“勤奋”了,甚至有点强迫症
    • 比喻:哪怕题目是简单的"2+3 等于几?”,普通学生直接回答"5"。但现在的 AI 模型会像写论文一样,先写个开头,再反复检查,甚至怀疑自己是不是算错了,最后写了 1000 个字才得出"5"。
    • 后果:这就像为了买一瓶水,你非要跑遍整个城市去比价,虽然最后买对了,但浪费了大量时间(延迟)和金钱(算力成本)

2. 旧方法的失败:粗暴的“扣分制”

为了解决这个问题,以前的研究者尝试给 AI 定规矩:“回答越长,分数越低”

  • 比喻:老师告诉学生:“如果你用 100 个字答对题目,扣你 10 分;如果你用 10 个字答对,不扣分。”
  • 为什么失败了? 这种方法有个巨大的漏洞。
    • 在 AI 的训练中,它会把所有回答(对的和错的)放在一起比较。
    • 场景:假设一组学生里,有 3 个答对了但写得很啰嗦(长),有 3 个答错了(短)。
    • 因为“啰嗦”被扣分,那 3 个答对但啰嗦的学生,分数可能变得比答错的学生还低!
    • 结果:AI 被误导了,它以为“啰嗦的正确答案”也是错的,于是开始不敢思考,甚至为了凑字数而胡编乱造,导致原本能做对的题也做错了。这就叫“因噎废食”。

3. DRPO 的解决方案:把“优等生”和“差生”分开打分

DRPO 的核心思想是:把“正确”和“错误”分开来评价,互不干扰。

  • 比喻

    • 旧方法(GRPO):把所有学生(不管对错)混在一个大池子里排名。因为池子里有“差生”,导致“啰嗦的优等生”排名垫底,被误杀。
    • DRPO 新方法
      1. 分组:先把“答对的学生”和“答错的学生”分成两个独立的班级。
      2. 独立排名
        • 在“答错班”里,谁写得更短,谁就得分高(鼓励别乱写)。
        • 在“答对班”里,在答对的学生内部比较。谁写得更简洁,谁就是“答对班”里的第一名。
      3. 关键保护:哪怕一个答对的学生写得很长,只要他在“答对班”里,他的分数就永远是正的(是好的),绝不会因为写得长而被当成“差生”惩罚。
  • 效果

    • AI 明白了:“哦,原来只要我答对了,写得长一点也没关系,不会被打入冷宫。但是,如果我能写得短一点,我在‘优等生’里就是更棒的优等生!”
    • 这样,AI 既保留了做对题目的能力,又主动学会了精简语言

4. 实验结果:既快又准

论文在数学题上做了测试,效果惊人:

  • 1.5B 小模型:在简单的题目(如 GSM8k)上,DRPO 让 AI 的回答长度缩短了 77%(从几千字变成几百字),而正确率只下降了 1.1%(几乎可以忽略不计)。
  • 对比:以前的方法为了缩短 68% 的长度,却牺牲了 4.3% 的正确率。DRPO 用更小的代价换来了更大的效率提升。

总结

这篇论文就像给 AI 模型请了一位高明的教练
以前的教练只会喊:“写得越长越不好!”结果把那些认真思考但有点啰嗦的好学生也骂跑了。
现在的 DRPO 教练会说:"答对的同学,我们单独比谁更简洁;答错的同学,你们先别管长度,先学会答对。"

最终,AI 学会了**“该思考时思考,该简洁时简洁”**,既省下了昂贵的计算资源,又没丢掉聪明的头脑。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →