Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Each language version is independently generated for its own context, not a direct translation.

🛒 物語の舞台：「魔法の買い物助手（MAGIC）」

まず、このシステムは**「MAGIC（マジック）」**という名前の AI 助手です。
ユーザーが「いつものお惣菜を買って、予算は 25 ドル以内で、ワインも合わせて」と頼むと、AI がスーパーの棚を巡り、商品をカートに入れ、予算内で調整してくれるのです。

でも、最初は**「一人の天才シェフ」**（単一の AI）に全てを任せていました。
しかし、お買い物は複雑です。「予算変更」「追加注文」「在庫切れの代替品」など、やり取りが長くなると天才シェフも混乱し、失敗するようになりました。

そこで彼らは、**「チームワーク」**に切り替えました。

指揮官（オーケストレーター）： 全体の指示を出す。
専門家のサブチーム： 検索をする人、価格をチェックする人、予算管理をする人など。

問題は、**「チームがバラバラに動いて、全体として失敗してしまうこと」**でした。例えば、検索担当が「安い肉」を見つけ、指揮官が「予算オーバー」と言っても、調整が間に合わず、最終的にユーザーが怒ってしまうのです。

🔍 ステップ 1：「採点表（ルーブリック）」を作る

チームを良くするには、まず**「何が良くて、何がダメか」**を明確にする必要があります。
でも、AI の会話の良し悪しを「なんとなく」で判断するのは危険です。

そこで、彼らは**「4 つの分野」に分けた採点表**を作りました。

お買い物の実行： 必要なものは買えたか？予算内か？
パーソナライズ： ユーザーの好み（アレルギーや好きなブランド）を覚えているか？
会話の質： 自然な会話ができたか？
安全： 危険なことを言ったり、ルールを破ったりしていないか？

さらに、この採点をするのは**「AI 裁判官」です。
最初は AI 裁判官の採点が人間とズレていましたが、「GEPA（ジーパ）」**という「AI の指示書（プロンプト）を自動で改良する魔法」を使って、裁判官の目を鍛え上げました。
その結果、AI 裁判官の採点は、人間の専門家と 91% 以上も一致するようになりました。これで、AI のパフォーマンスを「数値」で正確に測れるようになったのです。

🚀 ステップ 2：2 つの「改善作戦」

さて、採点表と AI 裁判官が揃ったので、チームを強化する作戦を 2 つ試しました。

作戦 A：「個々のメンバーを鍛える（Sub-agent GEPA）」

これは、**「一人ひとりの専門家を個別に指導する」**方法です。
「検索担当はもっと正確に」「予算担当はもっと厳しく」と、それぞれの役割を最適化します。

効果： 単純なミス（例えば、間違った商品を選ぶ）は減りました。
限界： しかし、**「チームワークのミス」**は直りませんでした。例えば、「検索担当が情報を伝えすぎて、予算担当がパニックになる」といった、メンバー同士の連携ミスは、個別指導では治らないのです。

作戦 B：「チーム全体でリハーサルする（MAMUT GEPA）」

これがこの論文の**「主役」**です。
**「チーム全員で、シミュレーション（リハーサル）を繰り返しながら、全体の流れを最適化する」**方法です。

どうやって？
AI が「もし、指揮官がもっと簡潔に指示を出したら、検索担当はもっと良い結果を出せるかな？」と、何千回も仮想的な買い物シミュレーションを行います。
どんな変化が？
- 指揮官が「無駄な言葉を減らす」ことで、他のメンバーが混乱しなくなる。
- 安全ルール（ハルシネーションや危険な提案）を、チーム全体で守れるようになる。
- 結果： 個々の指導では改善できなかった「会話の質」や「安全性」が劇的に向上しました。

💡 結論：何が学べたのか？

この研究が教えてくれたことは、**「良いチームを作るには、メンバーを個別に鍛えるだけでは不十分」**ということです。

個々の天才（個々の AI）を育てることも大切ですが、
チーム全体のリハーサル（システム全体の最適化）を通じて、**「誰が、いつ、何を言うか」**という連携を磨くことが、本当に成功への鍵でした。

まるで、**「個々の選手が上手いだけでは優勝できず、チーム全体でパス回しや戦術を完璧に合わせなければ、試合に勝てない」**のと同じです。

この「評価→シミュレーション→全体最適化」というプロセスは、今後、AI が私たちの日常生活（買い物だけでなく、旅行計画や健康管理など）を支えるために、非常に重要な**「設計図」**になると言われています。

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

🛒 物語の舞台：「魔法の買い物助手（MAGIC）」

🔍 ステップ 1：「採点表（ルーブリック）」を作る

🚀 ステップ 2：2 つの「改善作戦」

作戦 A：「個々のメンバーを鍛える（Sub-agent GEPA）」

作戦 B：「チーム全体でリハーサルする（MAMUT GEPA）」

💡 結論：何が学べたのか？

論文要約：BUILD, JUDGE, OPTIMIZE: A BLUEPRINT FOR CONTINUOUS IMPROVEMENT OF MULTI-AGENT CONSUMER ASSISTANTS

1. 問題定義 (Problem)

2. 手法 (Methodology)

A. 評価フレームワークと LLM-as-a-Judge

B. 最適化戦略

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と結論 (Significance & Conclusion)

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

🛒 物語の舞台：「魔法の買い物助手（MAGIC）」

🔍 ステップ 1：「採点表（ルーブリック）」を作る

🚀 ステップ 2：2 つの「改善作戦」

作戦 A：「個々のメンバーを鍛える（Sub-agent GEPA）」

作戦 B：「チーム全体でリハーサルする（MAMUT GEPA）」

💡 結論：何が学べたのか？

論文要約：BUILD, JUDGE, OPTIMIZE: A BLUEPRINT FOR CONTINUOUS IMPROVEMENT OF MULTI-AGENT CONSUMER ASSISTANTS

1. 問題定義 (Problem)

2. 手法 (Methodology)

A. 評価フレームワークと LLM-as-a-Judge

B. 最適化戦略

3. 主要な貢献 (Key Contributions)

4. 結果 (Results)

5. 意義と結論 (Significance & Conclusion)

関連論文

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification