FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

本文介绍了名为 FormalProofBench 的私有基准测试,旨在评估前沿 AI 模型生成可被 Lean 4 形式化验证的研究生级别数学证明的能力,结果显示最佳模型在该任务上的准确率为 33.5%。

Nikil Ravi, Kexing Ying, Vasilii Nesterov, Rayan Krishnan, Elif Uskuplu, Bingyu Xia, Janitha Aswedige, Langston Nashold

发布于 2026-03-31
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FormalProofBench 的新测试,我们可以把它想象成是给 AI 数学天才们举办的一场"终极毕业答辩"。

为了让你轻松理解,我们把这篇论文的核心内容拆解成几个生动的比喻:

1. 为什么要搞这个测试?(从“写作文”到“写代码”)

以前的数学测试(比如 MATH 或 GSM8K),就像是让 AI 写一篇数学作文

  • 问题:AI 可以写出一篇看起来非常通顺、逻辑似乎很完美的文章。但就像人类写文章一样,它可能会偷偷漏掉一个关键步骤,或者编造一个不存在的定理。人类老师读起来觉得“好像是对的”,但仔细一推敲,其实全是漏洞。
  • 新测试:FormalProofBench 不再让 AI 写“作文”,而是让它写代码(具体来说是 Lean 4 语言)。
  • 比喻:这就像以前是考“口头辩论”,现在变成了考“编程”。在编程世界里,代码要么能运行(通过编译),要么就报错(无法通过)。没有“看起来像对的”这种中间状态。如果证明有错,编译器会直接拒绝,就像机器不会接受一个有语法错误的程序一样。

2. 这个测试有多难?(研究生级别的“硬核”挑战)

  • 题目来源:题目不是小学奥数,而是来自研究生入学考试大学高年级教材
  • 涵盖领域:包括实分析、代数、概率论、逻辑学等深奥的数学分支。
  • 比喻:如果以前的测试是考“怎么解一元一次方程”,那现在的测试就是考“如何证明费马大定理的某个复杂推论”。这要求 AI 不仅要有数学直觉,还要像一位严谨的老教授一样,把每一个微小的逻辑细节都精确地表达出来。

3. AI 是怎么考试的?(带“工具箱”的 40 回合闯关)

AI 不是只被扔进考场就闭眼答题的。我们给它们配备了一个智能助手系统(Agent Harness):

  • 工具 1:Lean Loogle(数学图书馆):AI 可以像查字典一样,去搜索数学库里有没有现成的定理可以用。
  • 工具 2:Lean 执行器(试错机):AI 可以写一段代码,让机器立刻运行。如果错了,机器会告诉它“这里类型不匹配”或“这里缺个条件”。
  • 规则:每个题目给 AI 40 次机会(回合)。它可以写写改改,查资料,试错,直到最后提交一个完美的证明。
  • 比喻:这就像让 AI 在 40 分钟内,一边查百科全书,一边在黑板上写写画画,不断擦掉重写,直到写出一个能让“机器考官”完全满意的答案。

4. 考试结果如何?(AI 还很“菜”,但进步神速)

论文测试了目前世界上最强大的几个 AI 模型(比如 Claude Opus, GPT-5, Gemini 等)。

  • 最佳成绩:表现最好的模型(Claude Opus 4.5)只拿到了 33.5% 的分数。
  • 残酷的现实:这意味着,即使是目前最聪明的 AI,面对研究生级别的数学证明,每 3 道题也只能做对 1 道。剩下的 2/3 都失败了。
  • 排名:分数下降得非常快,后面的模型成绩更低。这说明,虽然 AI 在“做选择题”或“解简单题”上很厉害,但在深度、严谨的数学推理上,它们还远未达到人类专家的水平。

5. 为什么有的 AI 考得好,有的考得差?(“动手”比“动嘴”重要)

研究人员发现了一个有趣的现象:

  • 失败模式:有些 AI 喜欢疯狂地查资料(调用搜索工具),却很少写代码试错。它们像是在图书馆里不停地翻书,却不敢动笔写,结果越翻越晕,最后没写出东西。
  • 成功模式:表现好的 AI 更倾向于先动手写代码,运行看看报错,然后根据报错信息去修改。
  • 比喻:这就像学骑自行车。
    • 差的学生:一直在研究“骑车理论书”,读了 100 遍,但没骑过,一上车就摔。
    • 好的学生:上车就骑,摔倒了,爬起来看看哪里没平衡好,调整一下姿势再骑。
    • 结论:在数学证明中,“试错”和“反馈”比单纯的“搜索”更重要

6. 这对我们意味着什么?(未来的数学助手)

虽然 33.5% 的分数看起来不高,但这其实是一个巨大的里程碑。

  • 现状:目前 AI 还不能完全替代数学家,它们还需要人类的监督。
  • 未来:随着 AI 越来越强,它们可能会成为数学家的超级助手。想象一下,数学家提出一个大胆的想法,AI 能在几秒钟内帮他把这个想法转化成严谨的证明,并指出哪里逻辑不通。
  • 愿景:这就像从“计算器”进化到“自动驾驶”。虽然现在还不能完全自动驾驶(AI 还不能完全独立证明高深数学),但我们已经看到了它正在学会如何握方向盘。

总结

这篇论文告诉我们:AI 在数学上已经能“说人话”了,但离能“写严谨代码”还有很长的路要走

FormalProofBench 就像一面照妖镜,它用机器无法撒谎的严格标准,揭开了 AI 在深度推理上的短板。虽然现在的 AI 还像个“聪明的初学者”,但只要我们给它们正确的工具(多试错、少空想),它们未来有望成为人类最得力的数学研究伙伴。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →