FormalProofBench: Can Models Write Graduate Level Math Proofs That Are Formally Verified?

本論文は、大学院レベルの数学問題に対して AI モデルが Lean 4 形式で検証可能な証明を生成できるかを評価するプライベートベンチマーク「FormalProofBench」を提案し、最先端モデルでも最高で 33.5% の精度にとどまり、その性能と課題を包括的に分析したものである。

Nikil Ravi, Kexing Ying, Vasilii Nesterov, Rayan Krishnan, Elif Uskuplu, Bingyu Xia, Janitha Aswedige, Langston Nashold

公開日 2026-03-31
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

FormalProofBench の解説:AI は「数学の博士号」レベルの証明を、本当に正しく書けるのか?

この論文は、人工知能(AI)が「数学の証明」をどれだけ上手に書けるかを測る、新しいテスト「FormalProofBench(フォーマル・プローフ・ベンチ)」について紹介しています。

これをわかりやすく説明するために、いくつかのアナロジー(例え話)を使ってみましょう。

1. 従来のテスト vs 新しいテスト:「作文」か「プログラミング」か?

これまでの AI の数学テスト(MATH など)は、**「作文コンテスト」**に似ています。
AI が「答えは 5 です。なぜなら〜という理由があるからです」という説得力のある文章を書けば、人間が「なるほど、正しそうだ」と判断して点数をくれました。
しかし、ここには大きな落とし穴があります。AI は「もっともらしい嘘」をつくのが得意です。論理の飛躍があっても、文章が滑らかなら見逃されてしまうことがあります。

今回の「FormalProofBench」は、**「厳格なプログラミングコンテスト」です。
AI に求められているのは、美しい文章ではなく、
「コンパイラ(翻訳機)が通るコード」**です。

  • ルール: Lean 4 という特殊な言語で証明を書く。
  • 判定: 人間が「うまいね」と言うのではなく、コンピューターが「エラーなしで通ったか(True)」か「エラーが出たか(False)」でしか判断しません。
  • 結果: 1 ミリの論理の隙間でもあれば、即座に「不合格(エラー)」になります。これは、AI が「なんとなく正しそう」という嘘をつけない、究極のテストです。

2. テストの内容:大学院生レベルの「難問」

このテストの問題は、高校の数学オリンピックレベルではありません。
**「大学院生が資格試験や専門書で解くような、高度な数学」**です。

  • 分野: 解析学、代数、確率論、論理学など。
  • 出題元: 実際の大学の資格試験や、有名な教科書から選ばれています。
  • 問題数: 200 問。すべて、数学の専門家と Lean の使い手によって、AI が解けるように「正しく翻訳」されたものです。

3. AI の挑戦:「探偵」と「実験室」を駆使する

AI は、ただ答えを出力するだけではありません。このテストでは、AI に**「エージェント(助手)」**のような役割を与えています。
AI は 40 回までの「ターン(試行回数)」を使って、以下の道具を使いながら証明を完成させます。

  • 辞書検索(lean_loogle): 必要な定理や定義を Mathlib(数学の巨大な図書館)から探す。
  • 実験室(lean_run_code): 書いた証明の一部を実際に実行して、「エラーが出たか」「どこが間違っているか」を確認する。
  • 提出(submit_proof): 最終的に完成した証明を提出する。

成功の秘訣は「実験」です。
良い AI は、いきなり完璧な答えを出そうとせず、まず小さなコードを書いて実行し、「あ、ここが間違っていた」というフィードバックを得て、それを修正しながらゴールを目指します。逆に、悪い AI は辞書検索ばかりして、実際に試すことをせず、堂々巡りをして失敗します。

4. 結果:AI はどこまでできるのか?

最新の最強 AI モデルたちをこのテストに挑戦させたところ、結果は以下のようになりました。

  • 1 位は Claude Opus 4.5(Thinking): 正解率は33.5%
    • これは「100 問中 33 問」しか解けなかったことになります。つまり、6 割以上は失敗しています。
  • 2 位以下: 18%、17%、15%... と急激に成績が落ちます。
  • 最下位: 3% 台のモデルもいます。

結論:
「すごい AI」であっても、大学院レベルの数学証明を「完全に正しく」書くのは、まだ非常に難しいことがわかりました。33.5% という数字は、AI が「天才」の領域に近づきつつあることを示していますが、まだ「完璧な数学者」にはほど遠い、という現実を浮き彫りにしています。

5. なぜこのテストが重要なのか?

このテストは、AI の「数学力」を測るだけでなく、**「AI が人間の仕事(研究者)のパートナーになれるか」**を測る重要な指標です。

  • 信頼性: 人間が「たぶん正しい」と思っても、AI が「厳密に正しい」と証明できなければ、科学の進歩には使えません。
  • 未来: もし AI がこのテストで 100% できるようになれば、数学者は「証明のチェック」を AI に任せ、より新しいアイデアの発見に集中できるようになります。

まとめ

この論文は、**「AI は数学の天才になりつつあるが、まだ『厳密さ』という壁にぶち当たっている」**と伝えています。
FormalProofBench は、AI が「もっともらしい嘘」をつけないよう、厳しく、しかし公平に能力を測るための「新しい物差し」なのです。

AI が「大学院生レベルの証明」を完璧にこなせる日は、数学の未来が劇的に変わる瞬間になるでしょう。そのために、このベンチマークが重要な役割を果たしています。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →