Each language version is independently generated for its own context, not a direct translation.

🍳 料理とシェフの例え：なぜこの研究が必要なのか？

Imagine（想像してみてください）：
あなたが「今夜、家族でイタリアンを楽しみたいから、パスタとピザが作れるレシピと、材料を届けてくれるサービスを探して」と頼んだとします。

今までの AI の世界では、以下のような問題がありました：

シェフ（AI モデル）の能力はバラバラ：「数学が得意なシェフ」「料理が得意なシェフ」「語学が得意なシェフ」がいます。
道具（ツール）もバラバラ：「包丁セット」「オーブン」「食材配送サービス」など、使える道具も様々です。
組み合わせが無限大：「どのシェフに、どの道具を組み合わせれば、あなたの『パスタとピザ』の依頼に最も適した料理ができるか？」を判断するのは、人間には非常に難しいことです。

これまで、研究者たちは「このシェフは数学テストで 100 点だ」「あの道具は API 呼び出しが得意だ」という個別の成績表だけを持っていました。しかし、「あなたの『パスタとピザ』という具体的な注文に対して、どの組み合わせがベストか？」を教える**「注文とベストな組み合わせの対応表」**は存在しませんでした。

🚀 AgentSelect が解決したこと

この論文の著者たちは、**「AgentSelect（エージェント・セレクト）」**という新しいシステムを作りました。これは、以下のようなことを実現します。

1. 10 万を超える「注文」と「ベストな組み合わせ」のデータベース

彼らは、インターネット上の様々なテスト結果やデータを集め、**「11 万個の具体的な依頼（クエリ）」と、それに対応する「10 万個以上の AI アシスタント（エージェント）」**の組み合わせを整理しました。

例：「数学の問題を解いて」という依頼には「数学が得意なシェフ＋計算ツール」が、
例：「旅行の計画を立てて」という依頼には「言語が得意なシェフ＋地図・予約ツール」が、
それぞれ「正解（ベストな組み合わせ）」として登録されています。

2. 「人気投票」ではなく「内容のマッチング」

これまでの AI の選び方は、「よく使われているもの（人気）」を選ぶ傾向がありました。しかし、この新しいデータセットを見ると、**「特定の依頼に対して、たった一度きりの組み合わせが必要なケース（ロングテール）」**が非常に多いことがわかりました。

昔のやり方：「有名なシェフ」をとりあえず選ぶ（失敗しやすい）。
AgentSelect のやり方：「あなたの注文内容（ナラティブ）」を詳しく読み込み、**「その注文に合った道具とスキルを持ったシェフ」**を精密にマッチングする。

3. 実世界でのテスト（MuleRun での検証）

このシステムで訓練された AI は、実際に公開されている「AI アシスタントのマーケットプレイス（MuleRun）」でもテストされました。結果、**「人間が手動で選ぶよりも、このシステムが選んだ方が、より適切なアシスタントを見つけられる」**ことが証明されました。

💡 この研究のすごいところ（3 つのポイント）

「部品」ではなく「完成品」を見る
- 従来の評価は「AI モデル単体」や「ツール単体」の性能を見ていましたが、AgentSelect は**「モデル＋ツール」が組み合わさった「完成されたアシスタント」**として評価します。まるで、エンジン単体の性能ではなく、「車全体としての走行性能」を見るようなものです。
「作りかけ」のデータも活用できる
- 実際には「すべての組み合わせを試して正解を出す」のは不可能です（コストがかかりすぎるため）。そこで、AI が「この組み合わせなら正解に近そうだな」と推測して作った**「疑似的な正解データ」**も学習に活用し、それが実際に有効であることを証明しました。
誰でも使える未来への一歩
- これまで「AI アシスタントを作る」のはエンジニアの仕事でした。しかし、AgentSelect があれば、**「ただ『旅行の計画を立てて』と話すだけで、システムが自動的に最適な AI アシスタントを組んでくれる」**ようになります。専門知識がなくても、誰でも自分のための AI を作れる未来（ゼロコード）を実現する基盤です。

🌟 まとめ

この論文は、**「AI の世界に『レシピ検索サイト』のようなものを作った」**と言えます。

以前：「このシェフはすごい」「あの包丁はいい」という情報があっても、どう組み合わせればいいか迷っていた。
今：「AgentSelect」というデータベースを使って、「あなたの注文に最適なシェフと道具の組み合わせ」を瞬時に見つけてくれるようになった。

これにより、一般の人でも、複雑なタスクを AI に任せることが、より簡単で確実なものになります。AI の「使い分け」が、これからの AI 活用における最大の鍵となるでしょう。

Each language version is independently generated for its own context, not a direct translation.

AgentSelect: ナラティブクエリからのエージェント推薦のためのベンチマーク

技術的サマリー（日本語）

本論文は、大規模言語モデル（LLM）と外部ツールを組み合わせた「AI エージェント」の生態系において、特定の自然言語クエリに対して最適なエージェント構成を推薦する課題に焦点を当てた研究です。既存のベンチマークが個別のコンポーネント（LLM やツール）の評価に留まっているのに対し、AGENTSelect は、ユーザーの意図（ナラティブクエリ）から実行可能なエージェント構成（モデルとツールの組み合わせ）を推薦するエンドツーエンドのタスクを定義し、そのための統一されたデータセットと評価基盤を提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義と背景

背景: LLM エージェントはタスク自動化の現実的なインターフェースとして急速に普及していますが、利用可能な構成（バックボーンモデル、ツールセット、実行ポリシー）の組み合わせは爆発的に増加しています。
課題:
- 既存のリーダーボードやベンチマークは、LLM の単体性能やツールの使用能力を個別に評価するものであり、**「特定のクエリに対して、どの完全なエージェント構成が最適か」**という条件付きの推薦学習に必要な教師信号が不足しています。
- 評価データはタスク、指標、候補プールが異なり（ヘテロジニアス）、統合されて再利用されていません。
- ユーザーは、複雑な設定の「ジャングル」の中から、ゼロコードで自分のニーズに合うエージェントを選択する難しさに直面しています。
目標: 自然言語のクエリ $Q$ と候補エージェントのカタログ $A$ が与えられたとき、期待される有用性に基づいてエージェントをランク付けする推薦タスクを確立すること。

2. 手法と AGENTSelect ベンチマークの構築

AGENTSelect は、異質な評価アーティファクトを統一された「クエリ対エージェント」の相互作用データに変換するフレームワークです。

2.1 エージェントの表現（Capability Profile）

各エージェントを抽象的なラベルではなく、実行可能な能力プロファイル $A = (M, T)$ として定義します。

$M$ (Backbone LLM): 推論と言語能力を提供する基盤モデル。
$T$ (Toolkit): 検索、コード実行、API 呼び出しなどを可能にする外部ツールのセット。
これらは YAML 設定ファイルとして格納され、Agno や LangGraph などのフレームワークで即座に実行可能な形式に変換されます。

2.2 データセットの 3 つの構成要素

AGENTSelect は 111,179 のクエリ、107,721 のエージェント、251,103 の相互作用レコード（40 以上のソースから集約）を含み、以下の 3 つの部分で構成されます。

Part I: LLM のみのエージェント
- Open LLM Leaderboard などの大規模評価データから抽出。
- 特定のクエリに対して上位 10 位に入ったモデルを「正解（Positive）」として扱います。
- 密度が高く、特定のモデルの再利用（Head Reuse）が支配的です。
Part II: ツールキットのみのエージェント
- ToolBench や APIBench などのツール使用ベンチマークから抽出。
- バックボーンモデルを null として扱い、タスク解決に必要なツールセットのみを定義したエージェントを正解とします。
- ツールの適格性を評価します。
Part III: 合成された構成エージェント（Compositional Agents）
- 核心となる部分: 実際の運用では、モデルとツールの組み合わせ（ $M, T$ ）が重要です。
- Part I/II のクエリを基に、LLM リトリーバーとツールリトリーバーを用いて最適なコンポーネントを抽出し、合成された $(M, T)$ 構成を「疑似ポジティブ（Pseudo-positive）」として生成します。
- これにより、現実的な長尾（Long-tail）の構成に対する教師信号を生成します。

2.3 学習と評価

タスク: クエリとエージェントの能力プロファイルを入力とし、適合度をスコアリングしてランク付けするモデル（Two-Tower 型など）を学習します。
評価指標: Precision@10, Recall@10, nDCG@10, MRR@10 などを Part I/II/III ごとに評価します。

3. 主要な発見と結果

3.1 学習 regimes のシフト（密集から長尾へ）

Part I は特定のモデルが頻繁に再利用される「密集（Dense）」なデータですが、Part II と III はエージェントの ID が重複しにくい「長尾（Long-tail）」かつ「ほぼ一発（One-off）」の教師信号が支配的です。
このシフトにより、従来の ID 中心の協調フィルタリング（CF）やグラフニューラルネットワーク（GNN）は、ID が再利用されない Part II/III で性能が著しく低下することが示されました。

3.2 コンテンツ認識型マッチングの重要性

ID 依存型 vs コンテンツ依存型: ID だけのモデルは Part I では強力ですが、Part II/III では失敗します。一方、テキスト記述（モデル名、ツール説明）に基づく**コンテンツ認識型マッチング（Content-aware matching）**は、長尾領域でも堅牢に機能します。
エンコーダの強化: 単純な TF-IDF から BERT、さらに BGE-M3 などの強力な埋め込みモデルへ進化させることで、Part II/III での性能が劇的に向上しました。これは、自然言語の意図と具体的な能力プロファイルの間の意味的整合性が重要であることを示しています。

3.3 合成データの有効性検証

反事実的編集（Counterfactual Edits）: 合成されたエージェントから重要なツールを削除したり、無関係なツールを追加したりする実験を行いました。学習済みモデルは、能力が低下する編集に対してスコアを適切に下げ、ランキングを悪化させることを示し、合成データが学習可能な能力敏感な信号を提供していることが確認されました。
実世界への転移: AGENTSelect で微調整されたモデル（EasyRec*）は、外部の実エージェントマーケットプレイス（MuleRun）でも未見のカタログに対して性能向上を示し、実用性が証明されました。

4. 主要な貢献

初の統一ベンチマーク: エージェント推薦タスクに特化した、最初の統一データセットと評価インフラ（AGENTSelect）を提案しました。
異質データの統合: 既存の LLM リーダーボードやツールベンチマークの断片的な評価結果を、クエリ条件付きのポジティブ相互作用データとして体系化しました。
新しい知見: エージェント推薦において、ID 中心の手法からコンテンツ中心の能力マッチングへのパラダイムシフトが必要であることを実証しました。
実用性の証明: 合成データ（Part III）が現実の複雑な構成（モデル＋ツールの組み合わせ）を学習可能にし、実世界のマーケットプレイスでの推薦品質向上に寄与することを示しました。

5. 意義と将来展望

生態系の加速: 専門知識を持たないユーザーが、自然言語クエリから即座に最適なエージェント構成を生成・選択できる「オンデマンド・エージェント作成」を実現するための基盤を提供します。
研究の標準化: エージェントの推薦、ルーティング、ツール検索の研究に対して、再現性のある評価基準と学習データを提供します。
今後の課題: 完全なエンドツーエンドの実行評価（実際の API 呼び出しなど）はコストと再現性の課題があるため、今回は「能力マッチング」に焦点を当てましたが、将来的には実行結果に基づくフィードバックを教師信号に組み込むことが期待されます。

結論:
AGENTSelect は、LLM エージェントの爆発的な成長に伴う「選択の困難さ」を解決するための重要なインフラです。単なる性能比較を超え、ユーザーの意図とエージェントの能力を結びつける推薦システムの研究を加速させる基盤となるでしょう。

AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation