AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 AgentSelect 的新项目，你可以把它想象成是为 AI 智能体（Agent）世界建立的一个"超级推荐系统"和"统一考试标准"。

为了让你更容易理解，我们可以用"装修房子"和"点外卖"的比喻来拆解这篇论文的核心内容。

1. 背景：现在的 AI 世界太“乱”了

想象一下，现在的 AI 智能体就像是一个巨大的、没有目录的五金店。

以前：如果你想修水管，你得自己知道买哪个牌子的扳手、哪款胶水，还得知道怎么把它们组装起来。这需要你是专家。
现在：有很多现成的“智能体”（比如能帮你写代码的、能帮你查房价的、能帮你做 PPT 的）。但是，当你对着电脑说“我想策划一场派对”时，你面对的是成千上万个不同的智能体配置。
- 有的智能体只擅长聊天（只有大脑，没有手）。
- 有的智能体只有工具（有手，但没脑子）。
- 有的智能体是“大脑 + 手”的组合。
问题：用户不知道选哪个。现有的排行榜只告诉你“哪个大脑最聪明”或“哪个工具最好用”，但没告诉你针对你具体的“派对策划”需求，应该把哪个大脑和哪些工具组合在一起。这就好比只告诉你“锤子很好用”或“电钻很好用”，但没告诉你“装修厨房该用哪个组合”。

2. 解决方案：AgentSelect（智能体选拔赛）

作者们觉得，我们需要一个智能的“点菜员”。当你输入需求（比如“我要策划派对”），它能立刻从成千上万个配置中，挑出最适合你的那个“智能体套餐”。

为了训练这个“点菜员”，他们做了一个巨大的数据集，叫 AgentSelect。

这个数据集是怎么来的？（三大板块）

他们把散落在互联网各处的“考试卷子”和“工具说明书”收集起来，整理成了三套训练材料：

第一部分：纯大脑训练（LLM-only）
- 比喻：就像让一群厨师（AI 模型）只靠脑子回答问题，不让他们进厨房。
- 来源：收集了各种 AI 模型的问答排行榜数据。
- 作用：告诉系统，面对不同的问题，哪个“大脑”反应最快、最聪明。
第二部分：纯工具训练（Toolkit-only）
- 比喻：就像让一群没有脑子的机器人，只练习使用特定的工具（比如只会用锤子，或者只会用计算器）。
- 来源：收集了各种工具使用的测试数据。
- 作用：告诉系统，解决这类问题，到底需要哪些“工具”（比如查天气需要联网工具，算账需要计算器）。
第三部分：组合训练（Compositional Agents）
- 比喻：这是最关键的！就像让厨师既带脑子又带工具，去模拟完成一个完整的任务。
- 做法：因为现实中很难找到那么多完美的“组合”数据，作者们用 AI 自己“合成”了大量模拟数据。他们把“大脑”和“工具”随机组合，模拟用户会怎么选择。
- 作用：这是填补空白的关键，让系统学会如何把“大脑”和“工具”完美搭配。

3. 核心发现：从“看名气”到“看能力”

论文里有一个非常有趣的发现，就像从“追星”变成了“看简历”。

过去（密集头部）：以前大家选 AI，主要看谁名气大（比如某个模型被用了 1000 次）。这就像选餐厅只看排队人数。
现在（长尾需求）：AgentSelect 发现，很多任务是非常独特的（比如“帮我分析我爷爷的家族树”）。这种情况下，那个“名气大”的通用模型可能并不好用，反而是某个专门配置了特定工具的小众组合更合适。
结论：简单的“看谁被选得多”（基于 ID 的推荐）不管用了。必须读懂你的需求（自然语言），然后去匹配具体的能力（这个模型擅长什么 + 这个工具能做什么）。

4. 实验结果：真的有用吗？

作者们训练了一个推荐模型，并做了两个验证：

反事实测试（如果删掉工具会怎样？）：
- 他们故意把推荐好的智能体里的“关键工具”拿走，或者换个“笨脑子”。
- 结果：推荐系统的评分立刻下降，排名变后。这说明它真的懂工具的重要性，而不是在瞎蒙。
真实世界迁移（去 MuleRun 市场试水）：
- 他们把这个模型放到一个真实的 AI 应用商店（MuleRun）里去测试。
- 结果：即使面对商店里从未见过的智能体，这个模型也能比原来的推荐系统更准地找到用户想要的工具。就像你教了一个新来的导购员，他虽然没见过所有商品，但学会了怎么根据顾客的话推荐商品。

5. 总结：这对我们意味着什么？

AgentSelect 就像是给 AI 世界建立了一套通用的“能力身份证”系统。

以前：你想用 AI，得像个工程师一样去配置参数、选模型、挑工具，门槛很高。
以后：你只需要像点外卖一样，用自然语言说“我想做这件事”。AgentSelect 会在后台迅速匹配，为你组装出一个现成的、最适合你的 AI 智能体。

一句话总结：
这篇论文解决了一个大问题——如何让普通人也能轻松找到并组合出最适合自己任务的 AI 助手，不再需要成为技术专家。它通过建立大规模的数据标准，让 AI 推荐系统从“看名气”进化到了“看能力匹配”。

Each language version is independently generated for its own context, not a direct translation.

论文标题：AgentSelect: 面向叙事查询的 Agent 推荐基准 (Benchmark for Narrative Query-to-Agent Recommendation)

1. 研究背景与问题定义 (Problem)

随着大语言模型（LLM）与外部工具结合形成的 AI Agent 生态系统迅速扩张，用户面临“选择困难”的困境：

现状： 现有的 Agent 框架（如 LangGraph, Agno）提供了丰富的模块化组件，但缺乏一种原则性的方法来为特定的**叙事性查询（Narrative Query）**选择最佳的 Agent 配置。
痛点：
- 碎片化评估： 现有的基准（如 LLM Leaderboard, ToolBench）通常孤立地评估模型能力或工具使用能力，缺乏针对完整可部署配置（模型 + 工具组合）的端到端评估。
- 缺乏监督信号： 缺乏基于查询条件的监督信号来学习如何推荐端到端的组合式 Agent 配置。
- 长尾分布： 真实的 Agent 市场呈现长尾分布，许多 Agent 很少被复用，导致基于流行度或协同过滤（CF）的方法失效。
核心任务： 给定一个自由形式的自然语言查询 $Q$ 和一个包含大量候选 Agent 的目录 $A$ ，如何根据预期效用对 Agent 进行排序，以找到最匹配的配置（由骨干模型 $M$ 和工具集 $T$ 组成）。

2. 方法论 (Methodology)

2.1 AgentSelect 基准构建
作者提出了 AGENTSELECT，这是一个将异构评估产物统一转化为“查询 -Agent 交互”数据的基准。

Agent 表示： 每个候选 Agent 被定义为一个可部署的能力配置文件 $A = (M, T)$ ，其中 $M$ 是骨干 LLM， $T$ 是外部工具集。配置以 YAML 格式存储，包含模型、工具组合及执行元数据。
数据规模： 包含 111,179 个叙事查询，107,721 个可部署 Agent，以及 251,103 条正样本交互记录。
数据来源： 聚合自 40+ 个来源，涵盖 LLM-only、Toolkit-only 和 Compositional（组合式）Agent。

2.2 数据集设计的三个部分 (Three-Part Design)
为了覆盖不同的监督信号来源，数据集分为三个部分：

Part I (LLM-only Agents): 基于 Open LLM Leaderboard 等基准。利用查询粒度的评估结果，将每个查询的前 10 名模型视为正样本。主要提供密集的头部复用信号。
Part II (Toolkit-only Agents): 基于 ToolBench 等工具使用基准。将骨干模型设为空占位符，仅保留工具集。用于隔离工具集对任务解决能力的贡献。
Part III (Compositional Agents): 核心创新点。针对真实场景中 $M$ $M$ 和 $T$ $T$ 组合稀缺的问题，通过**合成伪正样本（Synthesized Pseudo-positives）**构建。
- 流程： 从 Part I/II 选取代表性查询 $\rightarrow$ 检索匹配的骨干模型和工具 $\rightarrow$ 组合成 $(M, T)$ 配置 $\rightarrow$ 视为该查询的伪正样本。
- 目的： 模拟真实的组合式 Agent 交互，填补长尾分布下的监督空白。

2.3 推荐模型与评估

基线模型： 涵盖了六类主流推荐方法，包括矩阵分解（MF, LightFM）、内容感知匹配（NCF, Two-Tower）、图神经网络（NGCF, LightGCN）、重排序模型（BGE-Rerank）以及生成式推荐（OneRec）。
特征输入： 统一使用查询文本、模型描述、工具描述以及 ID 特征。
评估指标： Precision@10, Recall@10, F1@10, nDCG@10, MRR@10。

3. 关键发现与实验结果 (Key Findings & Results)

3.1 范式转变：从密集复用到长尾监督

现象： 数据集呈现出从“密集头部复用”（Part I）向“长尾、近乎单次（one-off）监督”（Part II/III）的范式转变。
结论： 在长尾场景下，基于 ID 的协同过滤（CF）和图神经网络（GNN）方法表现脆弱，因为它们依赖历史复用信号。相反，内容感知（Content-aware）的能力匹配变得至关重要。

3.2 模型性能对比

内容匹配优于 ID 记忆： 基于 Two-Tower 架构的内容匹配模型（特别是使用 BGE-M3 等强编码器）在 Part II 和 Part III 上表现最佳。
ID 的局限性： 仅依赖 ID 的模型在长尾数据上失效。消融实验表明，移除 ID 仅导致性能轻微下降，证明模型主要学习的是文本描述中的能力匹配，而非死记硬背 ID。
微调的重要性： 通用嵌入（Zero-shot）在配置级区分上表现不佳，但在域内微调（In-domain tuning）后，检索和排序质量显著提升。
生成式推荐的偏差： OneRec 在 Part I（密集数据）表现良好，但在长尾数据上倾向于过度选择频繁出现的 ID，显示出在稀疏监督下的局限性。

3.3 合成数据的有效性验证 (Part III)

可学习性： 在 Part III 上训练的模型能够学习到有效的能力匹配信号。
反事实敏感性： 对 Agent 配置进行微调（如移除关键工具、替换骨干模型），模型能正确感知能力下降并降低排序分数，证明其具备真正的“能力感知”而非简单的模式匹配。
互补性： Part III 提供了 Part I/II 无法覆盖的互补监督信号，特别是在处理真实世界的组合配置时。

3.4 现实世界迁移 (Real-World Transfer)

MuleRun 市场验证： 在 AGENTSELECT 上微调的模型（EasyRec*）在外部公开 Agent 市场（MuleRun）的未见目录上，显著优于未微调的基线，提升了命中率（Hit Rate）和排序质量（nDCG/MRR）。
端到端部署验证： 在 Agno 框架下部署推荐结果，并通过模拟 API 执行任务，发现推荐模型的排序与最终任务完成度高度相关。

4. 核心贡献 (Contributions)

首个统一基准： 提出了 AGENTSELECT，这是首个将异构评估产物（LLM 基准、工具基准）统一转化为“查询 -Agent"推荐监督信号的大规模基准。
范式定义： 正式定义了“叙事查询到 Agent 推荐”（Narrative Query-to-Agent Recommendation）任务，将 Agent 选择问题形式化为基于能力配置文件 $(M, T)$ 的排序问题。
合成数据策略： 创新性地提出了 Part III 的合成交互数据构建方法，解决了真实世界中组合式 Agent 数据稀缺和长尾分布的难题。
深入分析： 揭示了 Agent 推荐领域从“基于 ID 的流行度”向“基于内容的语义匹配”转变的规律，证明了内容感知模型在长尾场景下的必要性。
开源资源： 提供了完整的数据集、训练代码及在线演示（Demo），支持从查询到可执行 Agent 配置的端到端生成。

5. 研究意义 (Significance)

降低使用门槛： 为普通用户提供了“零代码”按需创建 Agent 的可能性，无需手动配置模型和工具，只需输入自然语言需求。
推动生态发展： 为 Agent 市场（Agent Marketplace）提供了标准化的推荐基础设施，有助于解决 Agent 生态中的“选择困难”问题，加速 Agent 的普及。
方法论指导： 证明了在 Agent 推荐中，单纯依赖历史交互数据（ID）是不够的，必须结合模型和工具的内容描述进行语义匹配，为未来的 Agent 路由和工具检索研究指明了方向。
可复现性： 建立了可复现的评估框架，使得不同 Agent 配置的性能比较更加公平和标准化。

6. 局限性与未来工作

执行验证： 目前基准主要关注检索和排序，未对所有推荐配置进行全量的端到端执行验证（因 API 异构性和成本限制）。
未来方向： 计划引入选择性端到端反馈作为额外的监督通道，利用执行结果（成功/失败）来构建更难负样本，进一步提升模型在模糊情况下的区分能力。

总结： AgentSelect 填补了从“组件评估”到“系统级推荐”的空白，通过构建大规模、多来源的基准数据集，证明了基于内容感知的能力匹配是解决长尾 Agent 推荐问题的关键，为构建自适应、按需生成的 Agent 系统奠定了坚实基础。

AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

1. 背景：现在的 AI 世界太“乱”了

2. 解决方案：AgentSelect（智能体选拔赛）

这个数据集是怎么来的？（三大板块）

3. 核心发现：从“看名气”到“看能力”

4. 实验结果：真的有用吗？

5. 总结：这对我们意味着什么？

论文标题：AgentSelect: 面向叙事查询的 Agent 推荐基准 (Benchmark for Narrative Query-to-Agent Recommendation)

1. 研究背景与问题定义 (Problem)

2. 方法论 (Methodology)

3. 关键发现与实验结果 (Key Findings & Results)

4. 核心贡献 (Contributions)

5. 研究意义 (Significance)

6. 局限性与未来工作

类似论文

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Talking like Piping and Instrumentation Diagrams (P&IDs)

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study