Why Large Language Models can Secretly Outperform Embedding Similarity in Information Retrieval

该论文指出,虽然基于推理的大语言模型检索系统(LLM-RJS)理论上能克服嵌入相似度方法的短视局限并超越其性能,但现有标注数据集因同样存在短视缺陷而无法有效评估这一优势。

Matei Benescu, Ivo Pascal de Jong

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:为什么最新的大语言模型(LLM)在搜索信息时,并没有比传统的“相似度搜索”表现得更好? 甚至作者认为,大语言模型其实更聪明,只是我们用来衡量它们好坏的“尺子”有问题。

为了让你轻松理解,我们可以把信息检索(搜索)想象成在图书馆找书

1. 两种找书的方法

想象你走进图书馆,想找一本关于“如何区分麦当劳的双层芝士汉堡和麦香鸡(McDouble)”的书。

  • 传统方法(NERS - 神经嵌入检索系统):像“关键词匹配器”

    • 原理:这种方法把书和搜索词都变成一串数字代码(向量)。如果书里的词和搜索词很像,代码就离得很近,系统就觉得“这本书很相关”。
    • 比喻:这就像是一个只会看标签的图书管理员。如果你问“双层芝士汉堡”,他只会找封面上写着“双层”、“芝士”、“汉堡”这些词的书。
    • 缺点(短视):如果有一本书,封面上写的是“麦香鸡比双层芝士汉堡少一片芝士,贵 20 美分”,虽然它完美回答了你的问题,但因为封面上没有“双层芝士汉堡”这几个大字,这个图书管理员就会把它扔在一边,说:“这不相关,因为词不匹配。”这就是论文说的**“短视”**(Short-sightedness)。
  • 新方法(LLM-RJS - 大语言模型判断系统):像“博学的专家”

    • 原理:这种方法直接让大语言模型去读你的问题和书的内容,然后让它像人一样思考:“这本书到底有没有回答问题?”
    • 比喻:这就像是一位博学的老教授。你问他问题,他读完那本关于“少一片芝士”的书后,会恍然大悟:“啊!这本书解释了麦香鸡和双层芝士汉堡的区别,这正是用户想要的!”
    • 优势:它不需要关键词完全匹配,它能理解逻辑含义

2. 实验结果:为什么“专家”没赢过“图书管理员”?

作者做了一场实验,让这两种方法在同一个数据集(TREC-DL 2019)上比赛,看谁找书找得更准。

  • 结果:令人惊讶的是,“博学的老教授”(LLM)并没有比“只会看标签的图书管理员”(NERS)表现得更好,甚至有时候还差不多。
  • 原因:这就好比裁判(评估标准)本身也有问题。
    • 在这个实验中,谁是“正确答案”是由人类标注员决定的。
    • 作者发现,人类标注员也犯了“短视”的错误。当他们看到那本“少一片芝士”的书时,因为书里没有直接出现“双层芝士汉堡”这个词,他们就打分说:“这不相关(0 分)”。
    • 结论:大语言模型其实是对的(它觉得这书相关),但因为它和人类标注员的答案不一样,系统就判定它“错了”。不是模型不行,是尺子(人类标注)太短了,量不准。

3. 加入“思考”后的变化

作者还尝试让大语言模型**“多思考一会儿”**(Chain of Thought,思维链),就像让老教授在回答前先写一段推理过程。

  • 现象:当模型开始“思考”后,它更倾向于认为那些**“看起来不像但其实是相关”**的文档是相关的。
  • 冲突:结果发现,模型认为相关的文档,人类标注员却给了低分。
  • 真相:作者分析了那些被模型认为是“相关”但被人类标记为“不相关”的案例,发现绝大多数(94 例中有 89 例)其实是人类标注错了。人类因为太依赖关键词匹配,漏掉了真正的好答案。

4. 核心比喻总结

想象你在玩一个**“找不同”的游戏**:

  • NERS(传统模型):拿着放大镜找完全一样的字。
  • LLM(大模型):拿着大脑理解意思。
  • 人类标注员(裁判):也拿着放大镜找字,并且规定“只有字一样才算对”。

论文的结论是
大语言模型(LLM)其实比传统模型更聪明,它能理解那些“字不一样但意思对”的答案。但是,因为我们用来考试的标准答案(人类标注)也是由那些“只认字不认意”的裁判写的,所以大模型明明答对了,却被判错了。

这就好比
你问:“怎么区分苹果和梨?”

  • 标准答案(人类标注)写着:“必须同时出现‘苹果’和‘梨’这两个词。”
  • 大模型回答:“苹果是圆的,梨是长的。”(这是正确答案)
  • 但是裁判说:“你没同时写出这两个词,所以你是错的。”

5. 这对我们意味着什么?

  1. 大模型潜力巨大:它们有能力解决传统搜索搜不到的“隐形”答案。
  2. 评估体系需要升级:如果我们继续用那些“短视”的人类标注数据来训练和测试 AI,我们就永远无法看到 AI 真正的强大之处。我们需要重新定义什么是“相关”,不能只看关键词。
  3. 成本问题:虽然大模型更聪明,但它太贵、太慢了(像请专家咨询一次要很多钱),而传统模型便宜又快(像自动售货机)。所以目前的最佳方案可能是:先用便宜的自动售货机(NERS)快速筛选一批书,再请专家(LLM)从中挑出真正的好书。

一句话总结
大语言模型其实是个天才侦探,能发现别人看不到的线索;但现在的考试规则(人类标注)太死板,只允许它用笨办法(关键词匹配)答题,导致它的才华被埋没了。我们需要修改规则,才能看到它的真正实力。