SorryDB: Can AI Provers Complete Real-World Lean Theorems?

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「SorryDB（ソリー・データベース）」**という新しい仕組みと、それを使って AI が実際に数学の証明ができるかどうかを試した実験について書かれています。

難しい専門用語を抜きにして、日常の例え話を使って解説しますね。

1. 問題：「試験問題」だけでは実力が測れない

これまで、AI が数学の証明ができるかどうかを調べるには、**「オリンピックの数学問題」**のような、完成された難問を解かせるテスト（ベンチマーク）が使われていました。

例え話：
これは、料理人の腕前を測るために「完璧なレシピが用意された高級料理」だけを作らせているようなものです。
しかし、実際の料理人（数学者）は、レシピがない状態で、冷蔵庫にある食材（既存の定理）を組み合わせて、新しい料理（証明）を作ったり、途中で失敗して作り直したりします。
「オリンピック問題」はすでに AI が答えを暗記してしまっている可能性が高く、**「実際の現場で使えるか？」**という本当の力を測るには不十分でした。

2. 解決策：「未完成の料理」を解かせる「SorryDB」

そこで、この論文のチームは**「SorryDB」**という新しいテストを作りました。

仕組み：
世界中の数学者が GitHub（コード共有サイト）で一緒に作っている「未完成の数学プロジェクト」から、**「ここが証明できていないよ」というメモ（sorry というキーワード）**を自動的に集めます。
例え話：
これは、**「未完成の料理のレシピ帳」**を集めて、AI に「この空白の部分を埋めて、美味しい料理（証明）を完成させてください」と頼むようなものです。
- 誰かが「この材料（定理）を使えばいいはずだ」と書いておいて、実際に調理（証明）するのを誰かがやろうとしている状態です。
- このテストは常に更新されるので、AI が答えを暗記してしまっても、すぐに新しい「未完成の料理」が出てきて、暗記では通用しなくなります。

3. 実験結果：AI はどうだった？

チームは、最新の AI（Google の Gemini や Anthropic の Claude など）や、数学専門の AI に、この「未完成の料理」を完成させるよう挑戦させました。

結果の要点：
1. AI はまだ完璧ではない：
  一番強い AI でも、すべての問題を解くことはできませんでした。解ける問題と解けない問題がバラバラでした。
2. チームワークが重要（補完性）：
  特定の AI だけが万能ではなく、**「A さんはこの料理が得意、B さんはあの料理が得意」**というように、AI 同士が得意分野を持っています。複数の AI を組み合わせれば、もっと多くの問題を解決できることがわかりました。
3. 「失敗から学ぶ」のが最強：
  一度で正解を出そうとするより、**「試して、失敗したらエラーメッセージを見て、修正して、また試す」**という「試行錯誤（エージェント型）」のやり方が、圧倒的に成功しました。
  - 例え話：
    料理人が「まず味見して、塩味が足りなければ足す」という作業を繰り返すことで、完璧な味に近づけるのと同じです。

4. なぜこれが重要なのか？

この研究は、AI が「テストの点数を取るため」ではなく、**「数学者の実際の仕事（複雑なプロジェクトの完成）を助けること」**に焦点を当てています。

未来への展望：
この「SorryDB」は生き物のように成長し続けます。AI が進化するにつれて、残る「未完成の料理（証明）」はどんどん難しくなります。これにより、AI は常に最新のレベルで数学者と協力し、新しい数学の発見を助けることができるようになるでしょう。

まとめ

この論文は、**「AI に『完璧な試験問題』ではなく、『実際の現場で起こる未完成の仕事』を任せて、その実力を測ろう」という新しいアプローチを提案し、その結果、「AI はまだ一人では完璧ではないが、失敗を繰り返して修正する『試行錯誤』の能力があれば、数学者の強力なパートナーになれる」**ことを示しました。

まるで、**「料理の修行生に、完成された高級料理の真似ではなく、冷蔵庫の食材で新しい料理を考案させる練習」**をさせたようなものですね。

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

1. 問題：「試験問題」だけでは実力が測れない

2. 解決策：「未完成の料理」を解かせる「SorryDB」

3. 実験結果：AI はどうだった？

4. なぜこれが重要なのか？

まとめ

論文「SORRYDB: CAN AI PROVERS COMPLETE REAL-WORLD LEAN THEOREMS?」の技術的サマリー

1. 問題定義 (Problem)

2. 手法とアーキテクチャ (Methodology)

データセット構築 (SorryDB)

評価フレームワーク

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

SorryDB: Can AI Provers Complete Real-World Lean Theorems?

1. 問題：「試験問題」だけでは実力が測れない

2. 解決策：「未完成の料理」を解かせる「SorryDB」

3. 実験結果：AI はどうだった？

4. なぜこれが重要なのか？

まとめ

論文「SORRYDB: CAN AI PROVERS COMPLETE REAL-WORLD LEAN THEOREMS?」の技術的サマリー

1. 問題定義 (Problem)

2. 手法とアーキテクチャ (Methodology)

データセット構築 (SorryDB)

評価フレームワーク

3. 主要な貢献 (Key Contributions)

4. 実験結果 (Results)

5. 意義と結論 (Significance)

関連論文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems