FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FormalProofBench 的新测试，我们可以把它想象成是给 AI 数学天才们举办的一场"终极毕业答辩"。

为了让你轻松理解，我们把这篇论文的核心内容拆解成几个生动的比喻：

1. 为什么要搞这个测试？（从“写作文”到“写代码”）

以前的数学测试（比如 MATH 或 GSM8K），就像是让 AI 写一篇数学作文。

问题：AI 可以写出一篇看起来非常通顺、逻辑似乎很完美的文章。但就像人类写文章一样，它可能会偷偷漏掉一个关键步骤，或者编造一个不存在的定理。人类老师读起来觉得“好像是对的”，但仔细一推敲，其实全是漏洞。
新测试：FormalProofBench 不再让 AI 写“作文”，而是让它写代码（具体来说是 Lean 4 语言）。
比喻：这就像以前是考“口头辩论”，现在变成了考“编程”。在编程世界里，代码要么能运行（通过编译），要么就报错（无法通过）。没有“看起来像对的”这种中间状态。如果证明有错，编译器会直接拒绝，就像机器不会接受一个有语法错误的程序一样。

2. 这个测试有多难？（研究生级别的“硬核”挑战）

题目来源：题目不是小学奥数，而是来自研究生入学考试和大学高年级教材。
涵盖领域：包括实分析、代数、概率论、逻辑学等深奥的数学分支。
比喻：如果以前的测试是考“怎么解一元一次方程”，那现在的测试就是考“如何证明费马大定理的某个复杂推论”。这要求 AI 不仅要有数学直觉，还要像一位严谨的老教授一样，把每一个微小的逻辑细节都精确地表达出来。

3. AI 是怎么考试的？（带“工具箱”的 40 回合闯关）

AI 不是只被扔进考场就闭眼答题的。我们给它们配备了一个智能助手系统（Agent Harness）：

工具 1：Lean Loogle（数学图书馆）：AI 可以像查字典一样，去搜索数学库里有没有现成的定理可以用。
工具 2：Lean 执行器（试错机）：AI 可以写一段代码，让机器立刻运行。如果错了，机器会告诉它“这里类型不匹配”或“这里缺个条件”。
规则：每个题目给 AI 40 次机会（回合）。它可以写写改改，查资料，试错，直到最后提交一个完美的证明。
比喻：这就像让 AI 在 40 分钟内，一边查百科全书，一边在黑板上写写画画，不断擦掉重写，直到写出一个能让“机器考官”完全满意的答案。

4. 考试结果如何？（AI 还很“菜”，但进步神速）

论文测试了目前世界上最强大的几个 AI 模型（比如 Claude Opus, GPT-5, Gemini 等）。

最佳成绩：表现最好的模型（Claude Opus 4.5）只拿到了 33.5% 的分数。
残酷的现实：这意味着，即使是目前最聪明的 AI，面对研究生级别的数学证明，每 3 道题也只能做对 1 道。剩下的 2/3 都失败了。
排名：分数下降得非常快，后面的模型成绩更低。这说明，虽然 AI 在“做选择题”或“解简单题”上很厉害，但在深度、严谨的数学推理上，它们还远未达到人类专家的水平。

5. 为什么有的 AI 考得好，有的考得差？（“动手”比“动嘴”重要）

研究人员发现了一个有趣的现象：

失败模式：有些 AI 喜欢疯狂地查资料（调用搜索工具），却很少写代码试错。它们像是在图书馆里不停地翻书，却不敢动笔写，结果越翻越晕，最后没写出东西。
成功模式：表现好的 AI 更倾向于先动手写代码，运行看看报错，然后根据报错信息去修改。
比喻：这就像学骑自行车。
- 差的学生：一直在研究“骑车理论书”，读了 100 遍，但没骑过，一上车就摔。
- 好的学生：上车就骑，摔倒了，爬起来看看哪里没平衡好，调整一下姿势再骑。
- 结论：在数学证明中，“试错”和“反馈”比单纯的“搜索”更重要。

6. 这对我们意味着什么？（未来的数学助手）

虽然 33.5% 的分数看起来不高，但这其实是一个巨大的里程碑。

现状：目前 AI 还不能完全替代数学家，它们还需要人类的监督。
未来：随着 AI 越来越强，它们可能会成为数学家的超级助手。想象一下，数学家提出一个大胆的想法，AI 能在几秒钟内帮他把这个想法转化成严谨的证明，并指出哪里逻辑不通。
愿景：这就像从“计算器”进化到“自动驾驶”。虽然现在还不能完全自动驾驶（AI 还不能完全独立证明高深数学），但我们已经看到了它正在学会如何握方向盘。

总结

这篇论文告诉我们：AI 在数学上已经能“说人话”了，但离能“写严谨代码”还有很长的路要走。

FormalProofBench 就像一面照妖镜，它用机器无法撒谎的严格标准，揭开了 AI 在深度推理上的短板。虽然现在的 AI 还像个“聪明的初学者”，但只要我们给它们正确的工具（多试错、少空想），它们未来有望成为人类最得力的数学研究伙伴。

FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

1. 为什么要搞这个测试？（从“写作文”到“写代码”）

2. 这个测试有多难？（研究生级别的“硬核”挑战）

3. AI 是怎么考试的？（带“工具箱”的 40 回合闯关）

4. 考试结果如何？（AI 还很“菜”，但进步神速）

5. 为什么有的 AI 考得好，有的考得差？（“动手”比“动嘴”重要）

6. 这对我们意味着什么？（未来的数学助手）

总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

2.1 基准构建 (FormalProofBench)

2.2 评估框架 (Evaluation Harness)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 整体准确率

4.2 工具使用分析 (Tool-Use Analysis)

5. 意义与未来展望 (Significance & Future Work)

FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

1. 为什么要搞这个测试？（从“写作文”到“写代码”）

2. 这个测试有多难？（研究生级别的“硬核”挑战）

3. AI 是怎么考试的？（带“工具箱”的 40 回合闯关）

4. 考试结果如何？（AI 还很“菜”，但进步神速）

5. 为什么有的 AI 考得好，有的考得差？（“动手”比“动嘴”重要）

6. 这对我们意味着什么？（未来的数学助手）

总结

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

2.1 基准构建 (FormalProofBench)

2.2 评估框架 (Evaluation Harness)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 整体准确率

4.2 工具使用分析 (Tool-Use Analysis)

5. 意义与未来展望 (Significance & Future Work)

类似论文