ExGRPO: Learning to Reason from Experience

本文提出了 ExGRPO 框架,通过识别并优先利用具有高正确率和熵的推理经验,结合混合策略目标,在提升大语言模型数学与通用推理能力的同时显著增强了训练稳定性与效率。

Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ExGRPO 的新方法,旨在让大型人工智能(AI)模型变得更聪明,特别是在解决数学和逻辑推理问题时。

为了让你轻松理解,我们可以把训练 AI 想象成教一个学生做数学题

1. 以前的方法:做完就扔(“一次性”学习)

在传统的训练方法(论文中称为“在线策略”)中,AI 就像是一个只会“做一道题、扔一道题”的学生。

  • 过程:老师(算法)给 AI 出一道题,AI 尝试写出解题步骤(推理过程)。
  • 结果:如果做对了,老师给个奖励;如果做错了,老师给个批评。
  • 问题:无论 AI 是“蒙对”的,还是“瞎猜”的,只要更新完一次参数,老师就把这些解题过程(经验)全部扔进垃圾桶了。
  • 后果:这就像学生每天做新题,但从不复习错题本,也不复习做对的经典题。这不仅浪费了大量的计算资源(就像浪费纸张和墨水),而且如果学生基础不好,很容易在难题面前“崩溃”,学不进去。

2. 核心发现:什么样的经验最值钱?

论文的作者首先做了一个调查,发现并不是所有的“解题经历”都有同样的价值。他们发现了两个关键指标:

  1. 题目难度(正确率)
    • 太简单的题(AI 全对):AI 已经会了,再做也没进步。
    • 太难的题(AI 全错):AI 完全不懂,硬做只会产生一堆乱码。
    • 最有价值的题中等难度的题。AI 能解出一部分,但还没完全掌握。这种“跳一跳够得着”的题目,最能提升能力。
  2. 解题过程的“整洁度”(熵/混乱度)
    • 有些 AI 虽然做对了题,但过程写得乱七八糟,甚至乱用代码去“碰运气”(这叫高熵)。这种“歪打正着”的经验如果反复学,会让 AI 养成坏习惯,以后遇到真问题就只会乱套代码,逻辑混乱。
    • 最有价值的过程:逻辑清晰、步骤连贯、低熵(不混乱)的解题过程。

3. ExGRPO 的解决方案:建立“智能错题本”

ExGRPO 就像给 AI 配备了一个超级智能的“错题本”和“复习系统”。它不再把做过的题扔掉,而是分三步走:

第一步:收集与分类(整理错题本)

AI 做完题后,系统会把所有的解题过程存下来,而不是扔掉。

  • 它根据题目的难度(AI 做对的概率)把题目分门别类:简单的、难的、和中等难度的
  • 它把那些完全做对(太简单)的题目移入“退休区”(不再复习,因为已经掌握了)。
  • 它把那些完全做错(太难)的题目暂时放一边。
  • 重点:它把中等难度的题目放在最显眼的位置。

第二步:精选“好笔记”(去粗取精)

在复习时,系统不会把所有存下来的过程都拿出来看。

  • 它会从中等难度的题目中,专门挑选那些逻辑最清晰、最不乱(低熵)的解题过程。
  • 比喻:就像老师复习时,只挑那些“思路清晰但偶尔卡壳”的笔记,而不是挑那些“乱涂乱画蒙对答案”的草稿。

第三步:混合复习(新旧结合)

在训练时,ExGRPO 采用一种混合策略

  • 一半时间:做新题(探索未知,保持好奇心)。
  • 一半时间:复习刚才精选出来的“好笔记”(利用过去的经验,巩固能力)。
  • 这种“新旧搭配”的方法,既防止了 AI 学得太死板,又防止了它因为基础不牢而崩溃。

4. 效果如何?

实验结果表明,ExGRPO 非常成功:

  • 更聪明:在数学和逻辑测试中,它的得分比传统方法高出了不少(平均提高了 3.5 到 7.6 分)。
  • 更稳定:对于那些比较“笨”(参数量小)的模型,传统方法会让它们学崩(训练失败),但 ExGRPO 能让它们稳稳地进步。
  • 更省钱:因为它能反复利用有价值的经验,不需要像以前那样疯狂生成新数据,大大节省了计算资源。

总结

ExGRPO 的核心思想就是:不要浪费每一次尝试,但要懂得挑选。

它教会 AI 像聪明的学生一样:只复习那些“有点难但能学会”的题,并且只学习那些“逻辑清晰”的解题思路。 通过这种“有选择地复习”,AI 学得更快、更稳、更聪明。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →