Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

该论文提出了名为 AggAgent 的聚合智能体,通过将并行轨迹视为环境并利用轻量级工具按需检索与合成信息,有效解决了长周期代理任务中并行测试时扩展的聚合难题,在多个基准测试中显著优于现有方法且开销极低。

原作者: Yoonsang Lee, Howard Yen, Xi Ye, Danqi Chen

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读

这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AggAgent 的新方法,旨在解决大型人工智能(AI)在处理复杂、长周期任务(比如深度研究、网络搜索、写长篇报告)时遇到的一个核心难题:如何把多个 AI 的“尝试”整合成最好的答案?

为了让你轻松理解,我们可以用一个生动的比喻来贯穿全文:

🏛️ 核心比喻:超级侦探事务所

想象你是一家超级侦探事务所的老板。你接到了一个非常棘手的案子(比如:“找出 1990 年世界最高楼列表中,第 44 到 46 名建筑所在城市,在 2024 年 1 月 2 日谁是最年长的市长?”)。

这个案子太难了,线索分散,需要查阅大量旧报纸、数据库,还要推理。

1. 传统的做法(并行采样)

你派出了 8 名侦探(AI 模型)同时去查案。

  • 侦探 A 查到了线索,但最后算错了。
  • 侦探 B 查到了关键证据,但没注意到一个细节。
  • 侦探 C 完全走错了路。
  • 侦探 D 查到了正确答案,但报告写得太乱。

现在,你手里有 8 份长长的、杂乱的调查笔记(这就是论文说的“轨迹”)。你的任务是:如何从这 8 份笔记里,拼凑出唯一的、完美的结案报告?

2. 以前的笨办法(现有聚合方法)

以前的老板(现有的 AI 聚合方法)通常用这两种方式:

  • 方法一:少数服从多数(投票法)
    • 做法:问 8 个侦探:“你们觉得答案是什么?”如果 5 个人说“休斯顿”,你就选休斯顿。
    • 缺点:如果正确答案其实藏在少数派(比如只有 1 个侦探查对了,但他声音小),这个方法就完全失效了。而且,它忽略了侦探们推理过程中的精彩细节。
  • 方法二:摘要法(Summary Aggregation)
    • 做法:让一个秘书把 8 份几千页的笔记,强行压缩成 8 页的“摘要”,然后再让老板看摘要做决定。
    • 缺点信息丢失严重! 就像把一部精彩的侦探小说压缩成“凶手是 A",你丢掉了所有推理过程、证据链和反转。对于复杂的长任务,这种压缩是致命的。
  • 方法三:全文堆砌法
    • 做法:把 8 份几千页的笔记全部塞进老板的脑子里。
    • 缺点:老板的脑子(上下文窗口)装不下!直接崩溃。

3. 我们的新方案:AggAgent(智能聚合代理)

这篇论文提出了 AggAgent,它不是简单的“投票者”或“摘要员”,而是一位拥有超能力的“总侦探”(Aggregation Agent)

AggAgent 是怎么工作的?

它把 8 份调查笔记看作一个巨大的“证据库”,而不是死板的文本。它手里拿着三把轻量级的“魔法钥匙”(工具),可以按需打开证据库:

  1. 🔑 钥匙一:查看最终结论 (get_solution)
    • 先快速扫一眼 8 个侦探最后都写了什么答案。
  2. 🔑 钥匙二:关键词搜索 (search_trajectory)
    • 如果侦探 A 说“市长是约翰”,侦探 B 说“市长是玛丽”,AggAgent 不会瞎猜。它会立刻在侦探 A 的笔记里搜索“约翰”,看看他是怎么找到这个名字的?有没有证据支持?
  3. 🔑 钥匙三:调阅原始档案 (get_segment)
    • 如果搜索发现侦探 A 的推理有漏洞(比如他看错了日期),AggAgent 会直接调取那段原始的、未经修改的调查记录(比如当时的网页截图或数据库记录),亲自核实。

AggAgent 的绝招:

  • 它不依赖直觉:它不看谁声音大(投票),也不看谁看起来自信(置信度)。
  • 它像侦探一样思考:它会发现,“虽然 7 个侦探都选错了,但侦探 3 虽然结论错了,但他引用的原始证据其实是正确的,只是他理解错了。让我把侦探 3 的证据和侦探 5 的推理结合起来……"
  • 它只读需要的部分:它不需要把 8 份几千页的笔记全读一遍,而是像用搜索引擎一样,按需读取关键片段。这既省时间,又不会让脑子过载。

🚀 为什么这很重要?(论文结论)

  1. 更聪明:在 6 个不同的复杂任务测试中,AggAgent 的表现全面碾压了以前的所有方法。特别是在需要深度研究的任务上,它比第二名高出 10% 以上。
  2. 更省钱:以前的“摘要法”需要额外花很多钱去压缩文本。AggAgent 就像是一个只读关键信息的精算师,它的额外成本几乎可以忽略不计(只相当于多跑了一次侦探的行程)。
  3. 能“无中生有”:最神奇的是,有时候没有任何一个侦探单独做对了,但 AggAgent 通过拼凑不同侦探的正确碎片(比如侦探 A 找对了时间,侦探 B 找对了地点),最终拼出了完全正确的答案

📝 一句话总结

AggAgent 就像是一位拥有“上帝视角”的总指挥,它不盲目投票,也不盲目压缩,而是像一位经验丰富的侦探长,在多个 AI 的尝试中灵活地搜索、核对、拼凑线索,用最低的成本,从混乱中提炼出最完美的真相。

这就好比在 8 个迷路的人中,你不需要听他们所有人的抱怨,也不需要把他们的地图全撕碎了重画,而是直接问:“谁手里有正确的路标?”然后结合大家的碎片信息,直接画出那条通往终点的完美路线。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →