Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

该论文通过对比 2024 年和 2025 年两个时间点的 FreshStack 技术检索基准快照,发现尽管文档随时间发生迁移(如从 LangChain 转向 LlamaIndex),但检索模型的评估排名仍保持高度相关,证明了在动态演变的语料库中重新评估检索基准依然可靠。

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur, Jimmy Lin

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给信息检索(搜索)系统做的一次"时间旅行体检"。

想象一下,你手里有一张2024 年的旧地图,上面标记了所有去“技术城市”(比如 LangChain 这个编程框架)的路线。这张地图是以前用来测试导航软件(搜索引擎)准不准的“标准试卷”。

但是,现实世界是流动的。到了2025 年,这座城市发生了翻天覆地的变化:

  • 有些老街道被拆了(代码被废弃);
  • 有些大楼被重建了(文档被重组);
  • 甚至整个街区都搬到了隔壁的新城市(功能从 LangChain 迁移到了 LlamaIndex 等竞争对手那里)。

这篇论文的核心问题就是:当城市变了,我们手里那张 2024 年的旧地图(基准测试),还能用来测试 2025 年的导航软件吗?还是说它已经彻底失效了?

1. 他们做了什么?(实验过程)

研究团队(来自滑铁卢大学)做了一个非常有趣的实验:

  • 准备两份“快照”:他们把 2024 年 10 月和 2025 年 10 月的技术文档库(主要是 GitHub 上的代码和文档)分别拍成了两张“照片”。
  • 提出同样的问题:他们拿起了 2024 年提出的 203 个关于编程的问题(比如“怎么加载这个模型?”)。
  • 让 AI 当裁判:他们让一个超级聪明的 AI(Cohere Command A)来当“阅卷老师”。它不看整篇文章,而是看文章里有没有包含回答问题所需的关键事实碎片(他们叫这些碎片为“金块”,Nuggets)。
  • 测试导航软件:他们让各种各样的搜索模型(像 BM25、Qwen、BGE 等)在 2024 年和 2025 年的文档库里分别找答案,看看谁找得准。

2. 他们发现了什么?(核心发现)

发现一:地图没废,只是路变了(问题依然能回答)

最惊人的结果是:在 2024 年提出的 203 个问题中,有 202 个在 2025 年的新文档库里依然能找到答案!

  • 比喻:就像你问“怎么坐公交去市中心?”,2024 年的地图说“坐 1 路车”。2025 年虽然 1 路车停运了,但 2 路车、3 路车甚至地铁都覆盖了同样的路线。
  • 原因:虽然 LangChain 自己的文档减少了 67%(很多内容被删了或重组了),但这些内容并没有消失,而是搬家到了竞争对手的仓库里(比如 LlamaIndex)。就像一家餐厅倒闭了,但它的招牌菜被隔壁餐厅买下来继续卖,味道还是一样的。

发现二:搜索高手的排名没变(模型表现很稳定)

研究人员比较了 2024 年和 2025 年,哪些搜索模型是“优等生”,哪些是“差生”。

  • 结果:两年的排名高度一致(相关性高达 97.8%)。
  • 比喻:这就像每年的高考状元,虽然题目变了(从 2024 年变成了 2025 年),但那些真正聪明的学生(优秀的搜索模型)依然能考第一,笨的学生依然考不好。这说明,好的搜索算法具有很强的“抗干扰能力”,即使文档库变了,它们依然能精准定位到信息。

发现三:文档分布大洗牌

  • 现象:2024 年,大部分答案都在"LangChain"这个主仓库里(占 50%)。到了 2025 年,这个比例降到了 25%,答案分散到了 LlamaIndex、Transformers 等十几个不同的仓库里。
  • 启示:现在的技术世界是一个生态系统。如果你只盯着一个仓库找答案,就像只在一个超市找所有东西,肯定找不到。好的搜索系统必须懂得“跨仓库”找东西。

3. 这对我们意味着什么?(结论)

这篇论文告诉我们一个令人安心的结论:

“陈旧的”基准测试并没有完全失效

虽然技术文档像流水一样不断变化(今天写的代码明天可能就改了),但只要我们的测试方法足够灵活(比如允许答案分散在不同的地方),我们依然可以用旧的“考题”来有效地评估新的“搜索系统”。

简单总结
这就好比虽然城市里的路名变了、房子拆了又建,但只要导航软件足够聪明,它依然能把你带到目的地。这篇论文证明了,我们用来测试这些导航软件的“考卷”,在时间流逝后,依然有效且可靠。

一句话概括
技术世界在变,但优秀的搜索能力不变;只要答案还在(哪怕搬了家),好的搜索系统就能找到它。