GAR: Generative Adversarial Reinforcement Learning for Formal Theorem Proving

该论文提出了名为 GAR 的生成对抗强化学习框架,通过让问题生成器与求解器在对抗循环中协同进化,实现了隐式课程学习,从而显著提升了 Goedel-Prover-V2 和 DeepSeek-Prover-V2 等模型在 MiniF2F 和 ProofNet 等基准测试上的形式化定理证明性能。

Ruida Wang, Jiarui Yao, Rui Pan, Shizhe Diao, Tong Zhang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 GAR(生成式对抗强化学习)的新方法,旨在让 AI 更聪明地解决数学证明问题。

为了让你轻松理解,我们可以把数学证明想象成下棋,把AI 模型想象成棋手

1. 以前的困境:死记硬背的“题海战术”

在 GAR 出现之前,训练 AI 下棋(证明数学题)通常是这样做的:

  • 固定题库:研究人员准备一本固定的“习题集”(比如从简单的加减法到复杂的微积分)。
  • 反复刷题:AI 就在这本固定的习题集里不停地做题、犯错、修正。
  • 问题所在
    • 太简单:如果题目太简单,AI 早就做完了,再刷就是浪费时间(就像让大学生反复做 1+1=21+1=2)。
    • 太难:如果题目太难,AI 完全不会做,怎么练都没用(就像让小学生直接解量子力学)。
    • 缺乏进步:这本习题集是死的,不会随着 AI 变聪明而变难。AI 的能力被锁死在了题库的难度上限上。

2. GAR 的解决方案:一个“魔鬼教练”和一个“天才学生”

GAR 的核心思想是**“对抗训练”。它不再只训练一个 AI,而是同时训练两个 AI,让它们像“出题人”“解题人”**一样互相“打架”(对抗),从而共同进步。

我们可以用两个角色来比喻:

  • 角色 A:解题者(Prover)—— 也就是“学生”

    • 它的任务是:拿到题目,写出正确的数学证明(解题)。
    • 它的目标:做对更多的题,尤其是那些有挑战性的题。
  • 角色 B:出题人(Statement Fuser)—— 也就是“魔鬼教练”

    • 它的任务是:从现有的题目库里,把两道题“融合”在一起,创造出一道更难的新题。
    • 它的目标:出题要难到让学生“跳一跳才够得着”,但又不能难到让学生完全放弃(即题目必须是可解的)。

3. 它们是如何“相爱相杀”的?(训练过程)

这个过程就像是一个动态升级的训练营

  1. 融合出题:“魔鬼教练”把两道旧题(比如一道代数题和一道几何题)融合,变成一道全新的、更复杂的综合题。
  2. 学生解题:“学生”尝试解这道新题。
    • 如果解对了,学生获得奖励(经验值 +1)。
    • 如果解错了,学生获得反馈,知道自己哪里不行。
  3. 互相奖惩(核心机制)
    • 如果学生做对了:说明题目对现在的学生来说太简单了。于是,“魔鬼教练”会受到惩罚(因为它没出够难度的题),它必须下次出更难一点的。
    • 如果学生完全做不出:说明题目太难了,或者题目本身有问题。于是,“魔鬼教练”也会受到惩罚(因为它出了无解的题),它下次要稍微降低一点难度。
    • 如果学生做对了,但题目很难:这是最理想的状态!“学生”和“教练”都会获得奖励。

这就形成了一个完美的“隐式课程表”(Implicit Curriculum):
题目难度会自动随着学生的能力提升而动态调整。学生每进步一点,教练出的题就难一点。学生永远不会在简单的题上浪费时间,也永远不会因为题目太难而崩溃。

4. 为什么要用“融合”(Fusion)?

论文里有一个很巧妙的技巧叫**“语句融合”
想象一下,如果教练只是随机找一道难题,可能这道题刚好超出了学生的能力范围,或者题目本身有逻辑漏洞。
GAR 的做法是:教练从学生
已经会做**的题目里,挑出两道,把它们的关键点“缝合”在一起。

  • 比喻:就像厨师把两道你爱吃的菜(比如宫保鸡丁和鱼香肉丝)融合成一道新菜(宫保鱼香鸡丝)。因为原材料是你熟悉的,所以新菜虽然味道更丰富(更难),但你依然有办法处理,不会觉得完全陌生。

5. 结果如何?

实验结果显示,这种“对抗训练”非常有效:

  • 效率更高:AI 不再浪费时间在简单的题上,训练速度更快。
  • 能力更强:经过 GAR 训练的 AI(比如 DeepSeek-Prover 和 Goedel-Prover),在解决高难度数学竞赛题(如 MiniF2F 和 ProofNet 基准测试)时,正确率有了显著提升。
  • 通用性:这种方法不仅适用于数学,未来可能用于任何需要“出题”和“解题”配合的领域(比如写代码、设计游戏关卡等)。

总结

GAR 就像是一个拥有“自适应难度”的超级健身房。
以前的训练是让你在一个固定的重量下举铁,要么太轻没效果,要么太重举不起来。
GAR 训练则是:有一个智能教练,时刻盯着你的状态。你举得轻松,它就加重;你举不动,它就微调重量。通过这种**“出题人”和“解题人”的实时对抗与配合**,让 AI 在不知不觉中突破了能力的极限,学会了攻克以前认为不可能解决的复杂数学难题。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →