EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

本論文は、大規模言語モデルの関数呼び出し能力を向上させるために、データベース構築、実行可能環境生成、多ターン軌道合成を自律的に協調するマルチエージェントプラットフォーム「EigenData」を提案し、BFCL-V3 ベンチマークの自動修復と結果重視の評価手法を通じて、人間の機能正しさの判断と高い相関を持つモデル評価を実現したことを報告しています。

Jiaao Chen, Jingyuan Qi, Mingye Gao, Wei-Chen Wang, Hanrui Wang, Di Jin

公開日 Mon, 09 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「EigenData(アイゲン・データ)」**という、AI が自分でデータを生成・修正・管理する「魔法の工場」について紹介しています。

AI(特にツールを使う AI)を賢くするには、大量の「練習用データ」が必要ですが、これまでそれは人間が手作業で作る必要があり、時間がかかり、ミスも多かったです。この論文は、その問題を解決する新しいシステムを提案しています。

わかりやすく、**「完璧なレストランを開くためのプロジェクト」**に例えて説明しましょう。


🏗️ 1. 問題:なぜ AI は失敗するの?

AI を料理人(エージェント)に例えると、彼らが上手に料理をするためには、以下の 3 つのものが完璧である必要があります。

  1. 冷蔵庫(データベース): 食材がちゃんと入っているか。
  2. 調理器具とレシピ(コード): 包丁やオーブンが壊れていないか。
  3. 注文と料理の記録(データ): 「客が何を食べたいか」から「料理人がどう対応したか」までの会話記録。

これまでの研究では、これらを人間が手で作っていましたが、**「冷蔵庫の食材名が間違っている」「レシピの書き方が曖昧」「客の注文と料理がズレている」**といったミスが大量に含まれていました。そのため、AI が「すごい!」と評価されても、実際には料理が焦げている(失敗している)ことがよくありました。

🏭 2. 解決策:EigenData(魔法の工場)

EigenData は、この 3 つを**「AI 自身で作り直し、チェックし、直す」ことができるシステムです。まるで、「自分自身で設計図を描き、材料を買い、調理し、味見までする、完璧な料理人チーム」**が働いている工場のようなものです。

この工場には、**「総指揮官(EigenCore)」**と、3 人の専門家の「AI 従業員」がいます。

👨‍💼 総指揮官:EigenCore(アイゲンコア)

  • 役割: 人間の「ホテルの予約システムを作りたい」「既存のテストを直したい」という注文を受け取り、誰に何をさせるか指示を出します。
  • アナロジー: レストランの支配人。客の注文を聞いて、調理長、仕入れ係、味見係に指示を出します。

🛒 従業員 1:DatabaseAgent(データベース・エージェント)

  • 役割: 現実的な「冷蔵庫(データベース)」を作ります。
  • アナロジー: 仕入れ係
    • 「ホテルの予約システムなら、客の名前、部屋番号、日付、料金」など、現実的にありそうなデータ(例:満室の部屋やキャンセルされた予約)を、ルールに従って自動で作ります。
    • 「部屋番号が 0 番はないはずだ」といった矛盾がないか、自分でチェックします。

🔧 従業員 2:CodingAgent(コーディング・エージェント)

  • 役割: 道具や調理法(実行可能なコード)を作ります。
  • アナロジー: 調理長とテスト係
    • 仕入れ係が作ったデータを使って、「予約を取る」「キャンセルする」というプログラムを作ります。
    • 重要: 作った直後に「テスト料理」を作り、失敗したら「なぜ失敗したか」を AI が判断し、「レシピのミスか、テストのミスか」を見極めて直します。これを繰り返して、完璧なプログラムにします。

🗣️ 従業員 3:DataAgent(データ・エージェント)

  • 役割: 「客と料理人の会話(トレーニングデータ)」を作ります。
  • アナロジー: シナリオライターと味見係
    • 「忙しい朝、客が『急いで部屋を変えてほしい』と怒って注文する」といったシチュエーションを作り、AI 料理人がどう対応するかをシミュレーションします。
    • 自己進化: 最初は少し下手な会話でも、AI が「ここが変だ」と指摘し、プロンプト(指示書)を自分で改良しながら、より自然で高品質な会話データを量産します。

🔍 3. 実証実験:BFCL(有名テスト)の修理

この論文では、このシステムを使って、世界中で使われている有名なテスト「BFCL(バー클리・ファンクション・コール・リーダーボード)」を修理しました。

  • 発見された問題: 200 問のテストのうち、71.5% に何らかのミスがありました!
    • 「予約 ID は数字なのに、文字列で書かれている」などの矛盾。
    • 「自動でライトをつける」という命令なのに、コードが「消す」ように動いているバグ。
    • 「正解の答え」自体が間違っているケース。
  • EigenData の活躍:
    • 3 つの AI 従業員が協力して、**「仕入れ係がデータ直し」「調理長がコード直し」「シナリオライターが正解の会話直し」**を行いました。
    • 結果、「AI の実力順位」が劇的に変わりました
      • 元のテストでは「すごい!」と評価されていた AI が、実は「料理が焦げていた」ことが判明し、順位が下がりました。
      • 逆に、元のテストで低評価だった AI が、実は「本当は上手だった」ことがわかり、順位が上がりました。

🌟 4. 結論:何がすごいのか?

EigenData の最大の特徴は、「結果(客が満足したか)」で評価する点です。

  • 従来のテスト: 「レシピ通りに手順を踏んだか(文字通り一致するか)」をチェック。
  • EigenData のテスト: 「最終的に客の要望(部屋変更など)が成功したか」をチェック。

これにより、**「手順は違うけど、結果は完璧な料理」**も正解として扱えるようになり、AI の本当の実力を測れるようになりました。

まとめ

EigenData は、**「AI が AI の練習用教材を、人間の手を借りずに、自分で作り直し、完璧にする」**という新しい時代のシステムです。

これまでは「人間が作った教材で AI を鍛える」のが普通でしたが、今後は**「AI が自分で教材を磨き上げ、より賢く成長する」という、まるで「自分自身を教育する天才」**のような仕組みが実現しつつあるのです。