SorryDB: Can AI Provers Complete Real-World Lean Theorems?

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SorryDB 的新项目，它的核心目的是测试人工智能（AI）在真实世界中证明数学定理的能力，而不是在“考试”中拿高分。

为了让你轻松理解，我们可以把这篇论文的内容想象成一场**“修路大赛”**的变革。

1. 以前的比赛：在“模拟考场”里修路

过去，人们测试 AI 证明定理的能力，就像让 AI 去参加奥林匹克数学竞赛（比如 IMO 或 Putnam）。

比喻：这就像给 AI 一套套精心设计的、独立的“模拟驾驶考题”。题目很完美，路况很清晰，答案也是固定的。
问题：
- 太简单/太旧了：这些题目已经被 AI 刷了无数遍，AI 可能只是背下了答案（死记硬背），而不是真的学会了开车。
- 不接地气：现实生活中的修路（数学研究）充满了突发状况、复杂的依赖关系和未完成的工程，而模拟考题太干净、太理想化了。
- 饱和了：现在的 AI 在这些考题上几乎都能拿满分，我们没法看出谁更强，也没法知道它们能不能解决新问题。

2. 现在的创新：去“真实工地”修路

作者们提出了 SorryDB，这就像把考场搬到了真实的建筑工地上。

什么是 "Sorry"？
在数学家使用的一种叫 Lean 的编程语言中，当他们写下一个定理但还没想好怎么证明时，会先写一个占位符，叫 sorry（意思是“抱歉，这里还没写完”）。这就像工地上立了一块牌子：“此路不通，正在施工中”。
SorryDB 是什么？
它是一个动态更新的数据库，专门收集 GitHub 上 78 个正在进行的真实数学项目中所有带 sorry 的地方。
- 比喻：想象有一个巨大的“工地巡查机器人”，它每天去巡视这些真实的数学项目，把所有还没修好的“坑”（sorry）都记录下来，形成一个不断更新的“修路任务清单”。
- 特点：这些任务不是出题人编的，而是数学家们在真实研究中留下的。有的很难，有的很琐碎，有的依赖其他还没修好的路。

3. 测试过程：谁能把路修通？

作者们让各种 AI 模型（包括通用的聊天机器人、专门的数学 AI、以及会自我纠错的“智能体”）来尝试填补这些 sorry。

任务：AI 需要写出代码，把那个“抱歉”替换成真正的证明过程，让计算机能编译通过。
结果发现：
1. 单打独斗不如团队合作：没有一种 AI 是万能的。有的擅长修简单的路（教学类项目），有的擅长修复杂的立交桥（高深数学）。如果把所有 AI 的结果加起来，能修好的路会多很多。
2. “试错”比“死磕”更重要：最成功的 AI 不是那种一次就猜对答案的，而是**“自我修正”或“智能体”**模式。
  - 比喻：就像修路时，AI 先试着铺一段，如果计算机报错（路塌了），它看到错误信息，就回头调整方案再试一次。这种“尝试 - 报错 - 修改”的循环，比一次性猜对要有效得多。
3. 通用模型表现惊人： surprisingly，像 Gemini 这样通用的聊天机器人，只要给它“试错”的机会，表现比专门训练过的数学 AI 还要好。这说明理解上下文和灵活调整比死记硬背数学公式更重要。

4. 为什么这很重要？

拒绝作弊：因为任务清单是实时更新的，AI 没法在训练数据里提前背答案。
真正有用：如果 AI 能解决这些真实的 sorry，说明它真的能帮数学家干活，而不仅仅是做做题。
永远在进化：随着 AI 越来越强，把 sorry 填平，剩下的 sorry 就会越来越难。这个数据库会像“打怪升级”一样，永远保持挑战性，不会像旧考题那样被“刷爆”。

总结

这篇论文就像是在说：

“别再让 AI 在模拟考卷上拿满分了，那没用。让我们把它扔到真实的数学工地上，看它能不能把那些还没修好的路（sorry）给修通。我们发现，那些懂得**‘犯错后立刻改正’**的 AI，才是真正能帮人类解决复杂问题的助手。”

SorryDB 就是那个让 AI 从“做题家”变成“实干家”的试金石。

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

1. 以前的比赛：在“模拟考场”里修路

2. 现在的创新：去“真实工地”修路

3. 测试过程：谁能把路修通？

4. 为什么这很重要？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建：SorryDB

2.2 评估框架

2.3 评估模型与方法

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

1. 以前的比赛：在“模拟考场”里修路

2. 现在的创新：去“真实工地”修路

3. 测试过程：谁能把路修通？

4. 为什么这很重要？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

2.1 数据集构建：SorryDB

2.2 评估框架

2.3 评估模型与方法

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与展望 (Significance)

类似论文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems