Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

この論文は、複数の LLM ベースのコーディングエージェントが、証明タスクに対して動的に提案や報酬(バウンティ)を設定し、証明アシスタントと直接対話しながら分散的に協力して代数トポロジーの大規模な自動形式化を実現する、市場原理に基づく新しいアプローチを提案するものである。

Chad E. Brown, Cezary Kaliszyk, Josef Urban

公開日 Tue, 10 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🏆 実験の舞台:「数学の賞金稼ぎゲーム」

想像してください。巨大な図書館があり、そこには「代数トポロジー(数学の難問)」という、誰もまだ書き終えていない**「未完成の百科事典」**が置かれています。

これまでの研究では、この本を完成させるために「天才的な AI 一人」に任せていました。しかし、それはとても時間がかかり、まだ終わっていませんでした。

そこで今回、研究者たちは**「4 人の AI 探偵(エージェント)」を雇い、彼らに「賞金(バウンティ)」**という仕組みを導入しました。

🎮 ゲームのルールはこうです:

  1. 課題の提示と賞金の設定
    まず、人間が「この定理(数学の法則)を証明して!」という課題を出し、その難易度に応じて**「賞金(仮想通貨)」**を付けます。

    • 例:「この証明は難しそうだから、賞金 100 ドル!」
  2. AI たちの競争と協力
    4 人の AI(アリス、ボブ、チャーリー、デイブ)は、この賞金を狙って動きます。

    • 競争: 「私が証明するから、その賞金は私のものだ!」と宣言して、証明に取り掛かります。
    • 協力: 時には「この証明の一部分は難しすぎるから、誰か手伝って!」と別の AI に依頼したり、自分が作った証明の助けになる lemma(補題)に賞金を付けて、他の AI に解決を促したりします。
  3. ロックと報酬
    AI は「この証明は私がやる!」と宣言すると、その課題を**「ロック(予約)」**できます。

    • 誰かが証明を完成させれば、その AI が賞金を獲得します。
    • もし、ロックした AI が証明できずに時間が経てば、ロックは解除され、他の AI が挑戦できるようになります。
  4. 最終チェック
    AI が「証明完了!」と言っても、すぐに賞金がもらえません。**「厳格な証明助手(Megalodon)」**という、絶対的なチェック役が「本当に正しい証明か?」を厳しくチェックします。OK が出たものだけが、正式な証明として認められ、賞金が支払われます。


🚀 何が起きたのか?(結果)

この実験では、驚くべきことが起こりました。

  • 爆発的なスピードアップ:
    1 人の AI がやっていた頃と比べて、4 人の AI が協力して作業した結果、1 日あたりの進捗が約 5 倍に跳ね上がりました。

    • 例え話:1 人の職人が壁を塗るのに 1 週間かかる場所を、4 人の職人が「誰がどの壁を塗るか」を話し合いながら、2 日半で塗り終えたようなものです。
  • 自然な役割分担:
    人間が「アリスはここ、ボブはあそこ」と指示しなくても、AI たちは自然と得意分野を見つけました。

    • ボブは「基礎的な部分(ホモトピー)」を得意とし、
    • チャーリーは「幾何学的な図形」を、
    • アリスは「道筋のつなぎ合わせ」を、
    • デイブは「抽象的なグループ理論」をそれぞれ担当するようになりました。
      これは、まるで**「自然発生的なチームワーク」**のようです。
  • 失敗と修正:
    時には、AI が「これは証明できた!」と勘違いして賞金をもらおうとしたり、定義が間違っていたりすることもありました。しかし、システムがそれを検知して修正させたり、人間が介入してルールを厳しくしたりすることで、最終的に**「嘘のない、正しい証明」**だけが残りました。


💡 この実験のすごいところは?

  1. 「中央集権」から「市場経済」へ:
    これまでの AI 研究は「人間が全て計画して AI に指示する」スタイルでしたが、今回は**「AI 同士が市場のように動き、自分で課題を見つけ、解決する」**という、より自由で柔軟な方法が成功しました。

    • 例え話:「隊長が全員に指示を出す軍隊」ではなく、「フリーランスの職人たちが、良い仕事を見つけにお互いに競争しながらプロジェクトを完成させるスタートアップ」のようなイメージです。
  2. スケールできる可能性:
    数学の教科書のような巨大なプロジェクトでも、この「賞金方式」を使えば、AI たちが協力して短期間で完成できる可能性が見えてきました。

  3. 課題も発見された:
    完璧ではありませんでした。例えば、「サイン(sin)とコサイン(cos)」の定義が少し曖昧だったため、AI がそこでつまずいてしまいました。これは「AI に教える教科書(定義)自体を、もっと正確に作る必要がある」という重要な教訓になりました。

🌟 まとめ

この論文は、**「AI たちに『賞金』というモチベーションを与え、競争と協力を促すことで、人間が一人でやるよりも遥かに速く、数学の難問を解き明かすことができる」**ことを実証した素晴らしい実験です。

まるで、**「AI 探偵たちが、賞金をかけて協力しながら、数学という巨大なミステリーを解き明かしていく物語」**のような未来を感じさせる研究です。