Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

TREC 2025 RAG 赛道通过引入长叙事查询、基于 MS MARCO V2.1 语料库的多层评估框架以及强调归因验证,旨在推动构建透明、事实性强且具备推理能力的检索增强生成系统。

Shivani Upadhyay, Nandan Thakur, Ronak Pradeep, Nick Craswell, Daniel Campos, Jimmy Lin

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是TREC 2025 RAG 赛道(检索增强生成赛道)的总结报告。为了让你轻松理解,我们可以把整个比赛想象成一场**“超级侦探与作家”的终极挑战赛**。

🕵️‍♂️ 核心故事:从“查字典”到“写小说”

以前的比赛(2024 年):
就像是在图书馆里玩“找词游戏”。评委问:“谁赢了世界杯?”参赛者只需要从书堆里把写着“巴西队”的那一页纸找出来,贴上去就行。这就像查字典,只要关键词对得上,就算赢。

今年的比赛(2025 年):
评委变了,他们不再问简单的词,而是提出了复杂的“侦探任务”
比如,评委不再问“运动员工资多少?”,而是说:

“我对体育的社会影响很感兴趣,特别是关于运动员的薪酬公平性、包容性、文化影响以及商业运作。我还想知道,不断进化的装备、训练方式和心态,是如何塑造运动员并改变不同运动的热度的。”

这就像让侦探写一本微型小说。参赛者不仅要找到答案,还要把散落在成千上万本书里的线索(证据)拼凑起来,写出一篇逻辑通顺、有根有据、还能注明出处(比如“这句话来自第 3 章”)的完整文章。


🏆 比赛的四个关卡

这次比赛设计了四个环节,就像侦探社的晋升之路:

  1. 🔍 线索搜集(检索任务 R):
    侦探必须从巨大的书堆(MS MARCO 数据库)里,把跟这个复杂任务最相关的几页纸找出来。如果找错了书,后面的故事就编不下去了。

    • 比喻: 就像在茫茫大海里捞针,还要确保捞上来的针是真的,不是稻草。
  2. ✍️ 有证据的写作(增强生成任务 AG):
    评委已经帮侦探找好了最相关的几页纸,侦探的任务是只根据这几页纸,写出一篇不超过 400 字的故事。

    • 比喻: 就像给你几块乐高积木,让你拼出一个城堡,但不能自己凭空变出积木。
  3. 🚀 全能特工(检索增强生成任务 RAG):
    这是最难的关卡。侦探要自己找书(检索),自己写故事(生成),还要确保每一句话都有书里的内容做支撑。

    • 比喻: 侦探既要当渔夫(捕鱼),又要当厨师(做菜),还得保证菜里的鱼是刚捕上来的,不是从冰箱里拿的旧货。
  4. ⚖️ 阅卷老师(相关性判断任务 RJ):
    这是一个新任务。参赛者要扮演“阅卷老师”,给找到的书页打分:这篇内容跟侦探任务有多大的关系?是完全无关(0 分),还是完美覆盖了所有线索(4 分)?

    • 比喻: 就像老师批改作业,判断学生的回答是否切题。

📝 怎么打分?(裁判的“火眼金睛”)

这次比赛最厉害的地方在于,裁判不仅看结果,还看过程细节。他们用了三层“安检”:

  1. 拆解问题(子叙事):
    因为侦探任务太复杂,裁判先把大问题拆成小问题(比如:薪酬问题、包容性问题、商业问题)。

    • 比喻: 就像吃一个大披萨,裁判不会只看你吃没吃,而是看你有没有把上面的香肠、蘑菇、芝士都吃到了。
  2. 检查“金句”(Nuggets):
    裁判会从书里提取出关键的“金句”(核心信息点),然后看侦探写的答案里有没有包含这些金句。

    • 比喻: 就像寻宝游戏,裁判手里有一张藏宝图(金句列表),看侦探挖到的宝藏里有没有这些特定的金币。
  3. 核对“引用”(支持度评估):
    这是最关键的一点。侦探写的每一句话,后面都要标注“这句话来自哪本书”。裁判会检查:这句话真的在那本书里吗?还是侦探在瞎编?

    • 比喻: 就像法庭上,证人每说一句话都要出示证据。如果证人指着证据说“这是红色的”,但证据其实是蓝色的,那就是“部分支持”甚至“无支持”。

🤖 裁判也是 AI?(自动化评估)

以前,这种复杂的打分全靠人类专家(NIST 评估员),累得半死。今年,比赛引入了AI 裁判团(比如 GPT-4.1, Gemini 等)。

  • 人类裁判: 像经验丰富的老教授,看得准,但速度慢,只能看一部分。
  • AI 裁判: 像不知疲倦的超级计算机,能瞬间看完所有文章,而且打分跟人类老教授非常接近(相关性很高)。

结论是: AI 裁判现在足够聪明,可以帮人类分担大部分工作,让比赛跑得更顺畅。


🏁 比赛结果与意义

  • 参赛情况: 有超过 150 个团队提交了作品,大家用尽了各种高科技手段(比如把大模型和搜索结合,或者让 AI 自己规划搜索步骤)。
  • 主要发现:
    • 简单的“关键词搜索”已经不够用了,现在的系统必须能理解复杂的意图
    • 引用和证据变得前所未有的重要。如果你写得好但没证据,或者证据是编的,分数会很低。
    • 人类和 AI 裁判在打分上达成了一致,说明我们终于找到了一套靠谱的方法,来衡量 AI 到底是在“胡说八道”还是在“引经据典”。

💡 一句话总结

TREC 2025 RAG 赛道告诉我们要把 AI 从“只会查字典的机器”训练成“懂逻辑、会查证、能写作的超级助手”。未来的 AI 不仅要给你答案,还要告诉你答案是从哪来的,并且保证它是真的。