Re2\textbf{Re}^{2}: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving

该论文提出了“重解强化学习”(Re²)方法,通过让大语言模型在推理过程中学会灵活放弃低效路径并重新解题,从而在无需监督微调的情况下显著提升其推理性能并解决过度思考问题。

Pinzheng Wang, Shuli Xu, Juntao Li, Yu Luo, Dong Li, Jianye Hao, Min Zhang

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让大语言模型(LLM)变得更聪明、更会“思考”的新方法,叫做 Re2(Reinforcement Learning with Re-solving,带重解的强化学习)

为了让你轻松理解,我们可以把大语言模型想象成一个正在解数学题的学生,而这篇论文就是教这个学生如何**“学会放弃并重新开始”**的秘诀。

1. 以前的困境:死脑筋的“过度思考”

想象一下,这个学生(现在的 AI 模型)在做一道很难的数学题。

  • 以前的做法(标准推理): 老师告诉它:“不管你怎么想,一定要把思路写到底,直到写出一个答案为止。”
  • 结果: 学生一开始走错了路(比如用错了公式),但他不敢停下来。他觉得自己只要写得够长、步骤够多,总能把错的路“修补”成对的。于是,他硬着头皮在错误的道路上越走越远,写了满满几页纸,最后得出了一个错误的答案
  • 问题所在: 论文发现,一旦开头走错了,后面写得再长、再努力,也几乎不可能回到正确的轨道上。这就像开车开进了死胡同,还在拼命踩油门,只会离目的地越来越远。这就是所谓的“过度思考”(Overthinking)。

2. 核心创新:学会“及时止损”

Re2 的核心思想非常简单且人性化:“如果感觉不对劲,就果断扔掉,重新来过。”

这就好比那个学生突然意识到:“哎呀,我刚才那个思路好像完全行不通,再写下去也是浪费时间。”于是,他撕掉刚才写的那几页纸,深呼吸,从题目开始重新思考

  • 以前的模型: 只能一条道走到黑,要么对,要么错,没有中间选项。
  • Re2 模型: 拥有了“重解(Re-solving)”的超能力。它可以在思考过程中的任何时刻,判断当前路径是否还有希望。如果没希望,它就选择**“重做”**,而不是强行给出一个错误答案。

3. 它是如何训练的?(不用老师教,自己悟)

通常,教 AI 需要老师(人类)一步步纠正(监督微调)。但 Re2 很厉害,它不需要老师手把手教,而是通过**“强化学习”**自己悟出来的。

  • 训练过程比喻:
    想象我们在玩一个游戏。
    • 如果学生直接给出了正确答案,奖励 +1 分。
    • 如果学生给出了错误答案,奖励 0 分。
    • 关键点来了: 如果学生觉得“这题我刚才思路错了,我要重做",系统会怎么奖励它呢?
      • 系统会计算:“如果你现在重做,有多大几率能解对?”如果重做的成功率很高,那么选择“重做”这个动作就会得到很高的奖励
    • 通过成千上万次的练习,模型发现:与其在错误的路上硬撑拿 0 分,不如果断重做,争取拿高分。

于是,模型学会了:“在 0.5% 的情况下重做”变成了“在 30% 的情况下重做”。它不再盲目自信,而是变得更诚实、更灵活

4. 效果如何?

论文在数学竞赛(如 AIME)和科学推理等难题上测试了这个方法:

  • 更准: 在同样的计算资源下,Re2 模型的正确率比以前的方法(如 DAPO)高了很多。
  • 更省: 虽然它有时会重做,但因为避免了在死胡同里浪费大量时间,整体效率反而更高。
  • 更聪明: 它不再是为了“凑字数”而思考,而是为了“解决问题”而思考。

总结

这篇论文就像给 AI 装上了一个**“后悔药”“重启键”**。

以前的 AI 像是一个固执的工匠,哪怕把木头雕坏了,也要硬把它磨成个奇怪的东西,最后成品也是歪的。
现在的 Re2 AI 像是一个聪明的工匠,发现木头纹理不对(思路错了),立刻停下来,换一块木头或者换个思路重新开始,最终做出了完美的作品。

一句话概括: 让 AI 学会“知错就改,推倒重来”,比“一条道走到黑”更能解决复杂难题。