Over-Searching in Search-Augmented Large Language Models

该论文系统评估了搜索增强大语言模型中普遍存在的“过度搜索”现象,揭示了其在不同场景下的负面影响,提出了衡量性能与成本权衡的新指标 Tokens Per Correctness (TPC),并发布了 OverSearchQA 数据集以推动高效搜索增强模型的研究。

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣且现实的问题:现在的 AI 助手(特别是那些会联网搜索的 AI)有时候太“勤奋”了,勤奋得有点过头,反而帮了倒忙。

我们可以把这篇论文的核心内容想象成这样一个故事:

🕵️‍♂️ 核心比喻:那个“过度搜索”的超级侦探

想象你有一个超级聪明的侦探助手(这就是搜索增强的大语言模型)。

  • 以前(没有搜索功能): 如果你问它:“2075 年谁当美国总统?”它会很诚实地说:“我不知道,那是未来,没人知道。”(这叫** abstention**,即“知之为知之,不知为不知”)。
  • 现在(有了搜索功能): 你问它同样的问题。它虽然知道这是未来,但它觉得:“万一网上有人预测了呢?万一有新闻呢?”于是它开始疯狂地在网上搜索、分析、再搜索。
    • 结果: 它搜了一堆乱七八糟的科幻小说、阴谋论,最后自信满满地告诉你一个名字(比如“某位虚构人物”)。
    • 代价: 它浪费了大量的时间(计算成本),还给了你一个错误的答案

这就是论文定义的**“过度搜索”(Over-Searching)**:明明不需要搜索,或者搜索了也没用,AI 却非要搜个底朝天。


🔍 论文发现了什么?(三大发现)

研究人员像做实验一样,测试了各种 AI 模型,发现了三个关键现象:

1. “勤奋”的双刃剑

  • 好的一面: 对于能回答的问题(比如“谁赢得了 2024 年世界杯?”),搜索确实让 AI 变得更聪明、更准确。
  • 坏的一面: 对于根本没法回答的问题(比如“火星上现在有没有外星人?”),搜索反而让 AI 变笨了。它不再说“我不知道”,而是试图从网上找一些似是而非的信息来编造答案。
    • 比喻: 就像你问厨师“这道菜里有没有毒药?”,厨师本来知道没有,但为了保险起见,他非要拿试纸去测每一口菜,结果试纸本身污染了菜,或者让他误以为菜有毒。

2. 越聪明的 AI,越容易“想太多”

  • 那些被设计成擅长逻辑推理的 AI(比如 Deep Research 系统),或者在多轮对话中,更容易陷入“过度搜索”的陷阱。
  • 比喻: 就像一个特别爱钻牛角尖的学生。老师问:“这道题有解吗?”普通学生说“没解”,直接交卷。而那个“优等生”会想:“万一有隐藏条件呢?万一我漏看了什么?”于是他在草稿纸上算了 100 遍,最后不仅算错了,还浪费了考试时间。
  • 在多轮对话中,这种“过度搜索”会像滚雪球一样,越滚越大,越搜越偏。

3. 网上全是“好消息”,很少“坏消息”

  • 互联网上充满了“已知的事实”,但很少有关于“未知”或“无法回答”的明确记录。
  • 当 AI 去搜索时,它很难找到“这个问题无法回答”的证据(负向证据)。相反,它很容易搜到一些看似相关但其实是误导的信息(正向证据)。
  • 比喻: 就像你在图书馆找“世界上有没有独角兽”的答案。书架上全是关于独角兽的精美画册(误导信息),却几乎没有一本正经的书说“独角兽不存在”。AI 被这些画册迷住了,就以为独角兽真的存在。

📏 怎么衡量这个问题?(新尺子:TPC)

以前的评价标准只看“答对没”,但这篇论文发明了一个新指标,叫 TPC (Tokens Per Correctness,每单位正确性所需的 Token 数)

  • 通俗解释: 这就像衡量一辆车的**“每公里油耗”**。
    • 如果 AI 为了答对一个问题,消耗了 1000 个 Token(计算资源),而另一个 AI 只消耗了 100 个 Token 就答对了,那前者的 TPC 就很高,说明它效率低、浪费大
    • 如果 AI 为了回答一个“不知道”的问题,搜了 10 次,花了 5000 个 Token,最后还答错了,那它的 TPC 就是无穷大(因为没答对,成本却很高)。

🛠️ 怎么解决?(尝试过的药方)

研究人员试了几种方法,发现都有点用,但没彻底治好:

  1. 教它“认怂”(提示词优化): 告诉 AI:“如果不知道,就直接说不知道,别瞎搜。”
    • 效果: 有点用,但有时候 AI 为了“表现好”,还是会忍不住去搜。
  2. 给它看例子(少样本学习): 在提示词里给它看几个“不知道就承认”的例子。
    • 效果: 有用,但 AI 可能会变得太保守,连能回答的问题也不敢回答了。
  3. 在数据库里加“负向证据”: 故意在搜索库里加入一些“这个问题无法回答”的文档。
    • 效果: 如果 AI 能搜到这些文档,它就能学会放弃。但问题是,这些文档在海量数据里太容易被淹没了。

结论: 目前还没有完美的办法。AI 本质上还是太想“解决问题”了,缺乏一种**“理性地决定不搜索”**的直觉。


📚 总结:这篇论文给了我们什么启示?

这篇论文就像给 AI 行业敲了一记警钟:
“工具越多,不代表越好用。”

现在的 AI 越来越强大,能联网、能推理,但如果我们不给它们装上“刹车”(即知道何时停止搜索、何时承认无知的能力),它们就会像一辆没有刹车的法拉利,跑得越快,撞得越惨。

  • 对于开发者: 需要设计更好的机制,让 AI 学会“适可而止”,而不是盲目地堆砌计算资源。
  • 对于用户: 下次看到 AI 回答一个明显不可能的问题时,如果它还在长篇大论地引用搜索结果,你要知道,它可能正在“过度搜索”,那个答案很可能是它自己编出来的。

这篇论文还发布了一个专门的测试数据集(OverSearchQA),就像给 AI 出了一套专门的“脑筋急转弯”试卷,专门测试它们能不能在“不知道”的时候,老老实实说“不知道”。