EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「EigenData（アイゲン・データ）」**という、AI が自分でデータを生成・修正・管理する「魔法の工場」について紹介しています。

AI（特にツールを使う AI）を賢くするには、大量の「練習用データ」が必要ですが、これまでそれは人間が手作業で作る必要があり、時間がかかり、ミスも多かったです。この論文は、その問題を解決する新しいシステムを提案しています。

わかりやすく、**「完璧なレストランを開くためのプロジェクト」**に例えて説明しましょう。

🏗️ 1. 問題：なぜ AI は失敗するの？

AI を料理人（エージェント）に例えると、彼らが上手に料理をするためには、以下の 3 つのものが完璧である必要があります。

冷蔵庫（データベース）: 食材がちゃんと入っているか。
調理器具とレシピ（コード）: 包丁やオーブンが壊れていないか。
注文と料理の記録（データ）: 「客が何を食べたいか」から「料理人がどう対応したか」までの会話記録。

これまでの研究では、これらを人間が手で作っていましたが、**「冷蔵庫の食材名が間違っている」「レシピの書き方が曖昧」「客の注文と料理がズレている」**といったミスが大量に含まれていました。そのため、AI が「すごい！」と評価されても、実際には料理が焦げている（失敗している）ことがよくありました。

🏭 2. 解決策：EigenData（魔法の工場）

EigenData は、この 3 つを**「AI 自身で作り直し、チェックし、直す」ことができるシステムです。まるで、「自分自身で設計図を描き、材料を買い、調理し、味見までする、完璧な料理人チーム」**が働いている工場のようなものです。

この工場には、**「総指揮官（EigenCore）」**と、3 人の専門家の「AI 従業員」がいます。

👨‍💼 総指揮官：EigenCore（アイゲンコア）

役割: 人間の「ホテルの予約システムを作りたい」「既存のテストを直したい」という注文を受け取り、誰に何をさせるか指示を出します。
アナロジー: レストランの支配人。客の注文を聞いて、調理長、仕入れ係、味見係に指示を出します。

🛒 従業員 1：DatabaseAgent（データベース・エージェント）

役割: 現実的な「冷蔵庫（データベース）」を作ります。
アナロジー: 仕入れ係。
- 「ホテルの予約システムなら、客の名前、部屋番号、日付、料金」など、現実的にありそうなデータ（例：満室の部屋やキャンセルされた予約）を、ルールに従って自動で作ります。
- 「部屋番号が 0 番はないはずだ」といった矛盾がないか、自分でチェックします。

🔧 従業員 2：CodingAgent（コーディング・エージェント）

役割: 道具や調理法（実行可能なコード）を作ります。
アナロジー: 調理長とテスト係。
- 仕入れ係が作ったデータを使って、「予約を取る」「キャンセルする」というプログラムを作ります。
- 重要: 作った直後に「テスト料理」を作り、失敗したら「なぜ失敗したか」を AI が判断し、「レシピのミスか、テストのミスか」を見極めて直します。これを繰り返して、完璧なプログラムにします。

🗣️ 従業員 3：DataAgent（データ・エージェント）

役割: 「客と料理人の会話（トレーニングデータ）」を作ります。
アナロジー: シナリオライターと味見係。
- 「忙しい朝、客が『急いで部屋を変えてほしい』と怒って注文する」といったシチュエーションを作り、AI 料理人がどう対応するかをシミュレーションします。
- 自己進化: 最初は少し下手な会話でも、AI が「ここが変だ」と指摘し、プロンプト（指示書）を自分で改良しながら、より自然で高品質な会話データを量産します。

🔍 3. 実証実験：BFCL（有名テスト）の修理

この論文では、このシステムを使って、世界中で使われている有名なテスト「BFCL（バー클리・ファンクション・コール・リーダーボード）」を修理しました。

発見された問題: 200 問のテストのうち、71.5% に何らかのミスがありました！
- 「予約 ID は数字なのに、文字列で書かれている」などの矛盾。
- 「自動でライトをつける」という命令なのに、コードが「消す」ように動いているバグ。
- 「正解の答え」自体が間違っているケース。
EigenData の活躍:
- 3 つの AI 従業員が協力して、**「仕入れ係がデータ直し」「調理長がコード直し」「シナリオライターが正解の会話直し」**を行いました。
- 結果、「AI の実力順位」が劇的に変わりました。
  - 元のテストでは「すごい！」と評価されていた AI が、実は「料理が焦げていた」ことが判明し、順位が下がりました。
  - 逆に、元のテストで低評価だった AI が、実は「本当は上手だった」ことがわかり、順位が上がりました。

🌟 4. 結論：何がすごいのか？

EigenData の最大の特徴は、「結果（客が満足したか）」で評価する点です。

従来のテスト: 「レシピ通りに手順を踏んだか（文字通り一致するか）」をチェック。
EigenData のテスト: 「最終的に客の要望（部屋変更など）が成功したか」をチェック。

これにより、**「手順は違うけど、結果は完璧な料理」**も正解として扱えるようになり、AI の本当の実力を測れるようになりました。

まとめ

EigenData は、**「AI が AI の練習用教材を、人間の手を借りずに、自分で作り直し、完璧にする」**という新しい時代のシステムです。

これまでは「人間が作った教材で AI を鍛える」のが普通でしたが、今後は**「AI が自分で教材を磨き上げ、より賢く成長する」という、まるで「自分自身を教育する天才」**のような仕組みが実現しつつあるのです。

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

🏗️ 1. 問題：なぜ AI は失敗するの？

🏭 2. 解決策：EigenData（魔法の工場）

👨‍💼 総指揮官：EigenCore（アイゲンコア）

🛒 従業員 1：DatabaseAgent（データベース・エージェント）

🔧 従業員 2：CodingAgent（コーディング・エージェント）

🗣️ 従業員 3：DataAgent（データ・エージェント）

🔍 3. 実証実験：BFCL（有名テスト）の修理

🌟 4. 結論：何がすごいのか？

まとめ

EigenData: 関数呼び出しデータ合成、監査、修復のための自己進化型マルチエージェントプラットフォーム

1. 背景と問題定義

2. 手法：EigenData アーキテクチャ

2.1 主要コンポーネント

2.2 オーケストレーションとフィードバック

3. 主要な貢献

4. 実験結果

5. 意義と結論

EigenData: A Self-Evolving Multi-Agent Platform for Function-Calling Data Synthesis, Auditing, and Repair

🏗️ 1. 問題：なぜ AI は失敗するの？

🏭 2. 解決策：EigenData（魔法の工場）

👨‍💼 総指揮官：EigenCore（アイゲンコア）

🛒 従業員 1：DatabaseAgent（データベース・エージェント）

🔧 従業員 2：CodingAgent（コーディング・エージェント）

🗣️ 従業員 3：DataAgent（データ・エージェント）

🔍 3. 実証実験：BFCL（有名テスト）の修理

🌟 4. 結論：何がすごいのか？

まとめ

EigenData: 関数呼び出しデータ合成、監査、修復のための自己進化型マルチエージェントプラットフォーム

1. 背景と問題定義

2. 手法：EigenData アーキテクチャ

2.1 主要コンポーネント

2.2 オーケストレーションとフィードバック

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem