Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

该论文通过信息论论证与跨模型实证研究指出,在推理令牌预算严格受限且控制计算量一致的前提下,单智能体系统在多跳推理任务中表现优于或等同于多智能体系统,此前多智能体系统的优势往往源于未受控的计算资源增加或评估方法中的偏差。

Dat Tran, Douwe Kiela

发布于 2026-04-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在探讨一个非常有趣的问题:当我们要解决一个复杂的难题时,是派一个“超级大脑”独自思考更有效,还是派一个“专家团队”分工合作更有效?

很多之前的研究认为,多智能体系统(MAS,即专家团队)表现更好。但这篇论文的作者发现,之前的比较可能“不公平”——因为专家团队通常花了更多的“脑力”(计算资源/思考时间)。

作者做了一个控制变量的实验:给“超级大脑”和“专家团队”设定完全相同的“思考预算”(比如都只允许思考 1000 个字)。

结果令人惊讶:在同样的预算下,那个独自思考的“超级大脑”(单智能体 SAS)往往比“专家团队”(多智能体 MAS)表现更好,或者至少不相上下。

下面我用几个生活中的比喻来解释这篇论文的核心发现:

1. 核心比喻:侦探破案 vs. 传话游戏

想象你在玩一个**“传话游戏”(多智能体系统)和“独自推理”**(单智能体系统)的对比实验。

  • 多智能体系统(MAS): 就像是一个侦探团队。侦探 A 负责查线索,写个纸条给侦探 B;侦探 B 看完纸条,再写个纸条给侦探 C;最后侦探 C 汇总信息给出答案。
    • 问题: 在这个过程中,信息在传递时会丢失变形。就像你玩“传话游戏”,最后传出去的话往往和最初的不一样。而且,每个人写纸条、读纸条都要花时间(消耗预算)。
  • 单智能体系统(SAS): 就像是一个超级侦探。他脑子里同时处理所有线索,自己查、自己想、自己总结,最后直接给出答案。
    • 优势: 信息没有经过“中转站”,所以信息损耗最小。在同样的思考时间(预算)内,他能更完整地把线索串联起来。

论文的理论依据(信息论):
作者用了一个叫“数据处理不等式”的数学原理来解释:如果你把信息经过多次加工和传递(像团队传话),你得到的信息质量永远不可能比原始信息更好,甚至通常会变差。除非……

2. 什么时候“团队”能赢?(环境恶劣时)

论文也指出了“团队”能赢的唯一情况:当环境变得非常糟糕,导致“超级侦探”看不清线索时。

  • 比喻: 想象侦探要在一个烟雾弥漫、全是噪音的房间里找线索(这叫做“上下文退化”)。
    • 超级侦探(SAS): 因为烟雾太大,他可能看漏了关键信息,或者被噪音带偏了。
    • 专家团队(MAS): 虽然传话有损耗,但团队可以分工。A 专门负责过滤烟雾,B 专门负责找线索,C 专门负责检查。这种结构化的分工在混乱环境中反而能帮上忙。

结论: 如果线索清晰,一个人想就够了;如果线索太乱、太杂,团队分工才可能有用。

3. 实验中的“猫腻”:为什么以前大家觉得团队更强?

作者还像侦探一样,揭露了以前研究中的一些**“作弊”或“误会”**:

  • 预算没算对: 以前很多实验说团队强,是因为团队实际上用了更多的思考时间(比如 API 显示用了 1000 字,实际上内部可能思考了 5000 字,或者因为多次调用导致总消耗远超单智能体)。一旦把预算拉平,团队的优势就消失了。
  • API 的“幻觉”: 作者发现,像 Google Gemini 这样的模型,有时候 API 报告的“思考字数”和实际输出的字数对不上。就像你点了一份 1000 字的报告,API 告诉你“已生成 1000 字”,但实际上只写了 300 字,剩下的钱被“内部消化”了。这导致很多比较其实是不公平的。

4. 总结:我们学到了什么?

这篇论文告诉我们三个简单的道理:

  1. 别盲目迷信“人多力量大”: 在解决逻辑推理题时,如果给同样的思考时间,一个聪明的“独行侠”往往比一群“传话的专家”更靠谱。
  2. 团队的价值在于“抗干扰”: 只有当信息太乱、太复杂,一个人搞不定时,团队分工才有意义。
  3. 看实验要“抠细节”: 以前很多关于 AI 多智能体的“好消息”,可能只是因为它们偷偷用了更多的算力,而不是因为它们架构更先进。

一句话总结:
在同样的“思考时间”限制下,单兵作战往往比团队协作更高效;除非战场太乱,否则别为了“人多”而牺牲“信息传递的准确性”。未来的 AI 设计,应该更聪明地分配算力,而不是盲目地堆砌更多的智能体。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →