Overview of the TREC 2025 Retrieval Augmented Generation (RAG) Track

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是TREC 2025 RAG 赛道（检索增强生成赛道）的总结报告。为了让你轻松理解，我们可以把整个比赛想象成一场**“超级侦探与作家”的终极挑战赛**。

🕵️‍♂️ 核心故事：从“查字典”到“写小说”

以前的比赛（2024 年）：
就像是在图书馆里玩“找词游戏”。评委问：“谁赢了世界杯？”参赛者只需要从书堆里把写着“巴西队”的那一页纸找出来，贴上去就行。这就像查字典，只要关键词对得上，就算赢。

今年的比赛（2025 年）：
评委变了，他们不再问简单的词，而是提出了复杂的“侦探任务”。
比如，评委不再问“运动员工资多少？”，而是说：

“我对体育的社会影响很感兴趣，特别是关于运动员的薪酬公平性、包容性、文化影响以及商业运作。我还想知道，不断进化的装备、训练方式和心态，是如何塑造运动员并改变不同运动的热度的。”

这就像让侦探写一本微型小说。参赛者不仅要找到答案，还要把散落在成千上万本书里的线索（证据）拼凑起来，写出一篇逻辑通顺、有根有据、还能注明出处（比如“这句话来自第 3 章”）的完整文章。

🏆 比赛的四个关卡

这次比赛设计了四个环节，就像侦探社的晋升之路：

🔍 线索搜集（检索任务 R）：
侦探必须从巨大的书堆（MS MARCO 数据库）里，把跟这个复杂任务最相关的几页纸找出来。如果找错了书，后面的故事就编不下去了。
- 比喻： 就像在茫茫大海里捞针，还要确保捞上来的针是真的，不是稻草。
✍️ 有证据的写作（增强生成任务 AG）：
评委已经帮侦探找好了最相关的几页纸，侦探的任务是只根据这几页纸，写出一篇不超过 400 字的故事。
- 比喻： 就像给你几块乐高积木，让你拼出一个城堡，但不能自己凭空变出积木。
🚀 全能特工（检索增强生成任务 RAG）：
这是最难的关卡。侦探要自己找书（检索），自己写故事（生成），还要确保每一句话都有书里的内容做支撑。
- 比喻： 侦探既要当渔夫（捕鱼），又要当厨师（做菜），还得保证菜里的鱼是刚捕上来的，不是从冰箱里拿的旧货。
⚖️ 阅卷老师（相关性判断任务 RJ）：
这是一个新任务。参赛者要扮演“阅卷老师”，给找到的书页打分：这篇内容跟侦探任务有多大的关系？是完全无关（0 分），还是完美覆盖了所有线索（4 分）？
- 比喻： 就像老师批改作业，判断学生的回答是否切题。

📝 怎么打分？（裁判的“火眼金睛”）

这次比赛最厉害的地方在于，裁判不仅看结果，还看过程和细节。他们用了三层“安检”：

拆解问题（子叙事）：
因为侦探任务太复杂，裁判先把大问题拆成小问题（比如：薪酬问题、包容性问题、商业问题）。
- 比喻： 就像吃一个大披萨，裁判不会只看你吃没吃，而是看你有没有把上面的香肠、蘑菇、芝士都吃到了。
检查“金句”（Nuggets）：
裁判会从书里提取出关键的“金句”（核心信息点），然后看侦探写的答案里有没有包含这些金句。
- 比喻： 就像寻宝游戏，裁判手里有一张藏宝图（金句列表），看侦探挖到的宝藏里有没有这些特定的金币。
核对“引用”（支持度评估）：
这是最关键的一点。侦探写的每一句话，后面都要标注“这句话来自哪本书”。裁判会检查：这句话真的在那本书里吗？还是侦探在瞎编？
- 比喻： 就像法庭上，证人每说一句话都要出示证据。如果证人指着证据说“这是红色的”，但证据其实是蓝色的，那就是“部分支持”甚至“无支持”。

🤖 裁判也是 AI？（自动化评估）

以前，这种复杂的打分全靠人类专家（NIST 评估员），累得半死。今年，比赛引入了AI 裁判团（比如 GPT-4.1, Gemini 等）。

人类裁判： 像经验丰富的老教授，看得准，但速度慢，只能看一部分。
AI 裁判： 像不知疲倦的超级计算机，能瞬间看完所有文章，而且打分跟人类老教授非常接近（相关性很高）。

结论是： AI 裁判现在足够聪明，可以帮人类分担大部分工作，让比赛跑得更顺畅。

🏁 比赛结果与意义

参赛情况： 有超过 150 个团队提交了作品，大家用尽了各种高科技手段（比如把大模型和搜索结合，或者让 AI 自己规划搜索步骤）。
主要发现：
- 简单的“关键词搜索”已经不够用了，现在的系统必须能理解复杂的意图。
- 引用和证据变得前所未有的重要。如果你写得好但没证据，或者证据是编的，分数会很低。
- 人类和 AI 裁判在打分上达成了一致，说明我们终于找到了一套靠谱的方法，来衡量 AI 到底是在“胡说八道”还是在“引经据典”。

💡 一句话总结

TREC 2025 RAG 赛道告诉我们要把 AI 从“只会查字典的机器”训练成“懂逻辑、会查证、能写作的超级助手”。未来的 AI 不仅要给你答案，还要告诉你答案是从哪来的，并且保证它是真的。

Each language version is independently generated for its own context, not a direct translation.

以下是关于 TREC 2025 检索增强生成（RAG）赛道 概述论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

TREC 2025 RAG 赛道旨在推动检索与生成相结合的系统研究，以解决复杂、现实世界中的信息需求。与 2024 年首届赛道相比，今年的核心挑战发生了显著转变：

查询形式的演变：从简短的关键词查询转变为长篇幅、多句子的叙事性查询（Narrative Queries）。这种转变模拟了“深度搜索”场景，要求系统具备更深层的推理能力、更广泛的证据覆盖范围以及基于逻辑的响应生成能力。
核心痛点：现有的 RAG 系统往往难以处理需要跨多个文档进行综合推理的复杂问题，且在生成答案时缺乏透明度和事实依据（Attribution）。
目标：设计能够结合检索与生成、确保透明度并基于事实的管道，以应对包含多个子主题的复杂叙事查询。

2. 方法论与任务设置 (Methodology)

2.1 数据集与任务

语料库：沿用 MS MARCO V2.1 文档语料库，该语料库经过去重处理，并采用滑动窗口技术进行了细粒度分段（Segmentation），更适合 RAG 任务。
查询生成：由于缺乏现成的叙事查询，组织者通过自动化流程将相关的原始搜索查询聚类，利用大语言模型（LLM）生成连贯的多句叙事查询（共 105 个）。
四大任务：
1. 检索 (Retrieval, R)：针对叙事查询，从语料库中返回 Top-100 的分段 ID。
2. 增强生成 (Augmented Generation, AG)：给定固定的检索结果（Top-k 分段），生成不超过 400 词的答案，且每个句子必须包含对支持分段的引用。
3. 检索增强生成 (RAG)：端到端系统，参与者需自行设计检索、重排序和生成管道。
4. 相关性判断 (Relevance Judgment, RJ)：新设任务，要求参与者对文档与叙事查询的相关性进行打分（0-4 分）。

2.2 评估框架 (Evaluation Framework)

TREC 2025 采用多层评估框架，涵盖相关性、完整性、归因和一致性分析：

相关性评估 (Relevance Assessment)：
- 子叙事分解：将复杂的叙事查询分解为多个独立的子叙事（Sub-narratives）（例如：运动员薪酬、包容性、商业影响等）。
- 评分标准：基于文档覆盖的子叙事数量进行 0-4 分评分（0=无关，4=完美覆盖 4 个以上子叙事）。
- 自动化辅助：使用 LLM 集成（GPT-4.1, Gemini 2.5 Pro 等）进行自动相关性打分，并与人工评估进行对比。
响应评估 (Response Evaluation)：
- Nugget（关键信息单元）生成与分配：从相关文档中提取关键信息点（Nuggets），分为“关键（Vital）”和“一般（Okay）”。
- 覆盖度计算：衡量系统回答中是否包含并支持了这些关键信息点。主要指标包括严格关键召回率 (Strict Vital Recall) 和 子叙事覆盖率。
支持性评估 (Support Evaluation)：
- 句子级验证：检查答案中的每个句子是否由其引用的文档事实支持。
- 评分等级：完全支持 (Full Support)、部分支持 (Partial Support)、无支持 (No Support)。
- 指标：加权精确率 (Weighted Precision) 和加权召回率 (Weighted Recall)。
一致性分析：使用 Cohen's Kappa 等指标比较自动化评估与人工评估的一致性。

3. 关键贡献 (Key Contributions)

叙事驱动的挑战范式：首次大规模引入多句子、多主题的叙事查询，迫使 RAG 系统从简单的“检索 - 复制”模式转向“检索 - 推理 - 综合”模式。
细粒度的子叙事分解机制：提出了一套半自动化的子叙事生成流程（利用 LLM 生成候选列表，经人工修正），将复杂查询解构为可评估的原子单元，显著提高了评估的颗粒度和准确性。
多层级自动化评估体系：构建了包含自动相关性判断、自动 Nugget 提取与分配、自动支持性验证的完整自动化评估流水线，并验证了其在特定指标（如运行级排序）上与人工评估的高度一致性。
归因与事实性验证：强调答案的透明度，强制要求句子级引用，并开发了专门的指标来量化事实依据的可靠性。

4. 实验结果 (Results)

检索任务：
- 共收到 12 个小组的 46 个运行结果。
- 基于人工评估的 nDCG@30 最高达到 0.6934 (UTokyo 组)。
- 自动化评估与人工评估在运行级（Run-level）表现出强相关性（Kendall's $\tau$ 较高），表明自动评估在宏观排序上可靠，但在单个叙事层面存在噪声。
AG 与 RAG 任务：
- 收到 51 个 RAG 运行和 25 个 AG 运行。
- 严格关键召回率 (Strict Vital Score)：在完全人工设置下，最高分为 0.5000 (MITLL, ncsu-las 等组)。
- 子叙事覆盖率：最高达到 0.8400。
- 评估模式对比：研究发现，当保留人工相关性判断（qrels）但自动化 Nugget 生成时，评估结果与全人工设置的一致性显著提高；而完全自动化的设置在某些指标上波动较大。
支持性评估：
- 使用 GPT-OSS 120B 作为自动评估器，其加权精确率和召回率与人工评估显示出清晰的正相关关系，证明了大模型在事实核查任务中的潜力。
相关性判断 (RJ) 任务：
- 自动化相关性判断与人工判断的吻合度（Agreement Fraction）在 0.30-0.34 之间，Kappa 值较低，表明自动相关性判断仍是一个极具挑战性的任务。

5. 意义与影响 (Significance)

推动 RAG 技术边界：TREC 2025 标志着 RAG 研究从处理简单事实性查询向处理复杂、多跳推理任务的重大跨越。
评估标准的革新：提出的基于子叙事分解和关键信息单元（Nuggets）的评估方法，为未来复杂问答系统的评估提供了更科学、更细粒度的标准。
可信 AI 的基石：通过强调归因（Attribution）和事实支持（Support），该赛道推动了构建可解释、可信赖的 AI 系统的研究，这对于医疗、法律等高风险领域的应用至关重要。
自动化评估的可行性：虽然完全自动化评估仍有差距，但结果显示在运行级排序上，基于 LLM 的评估体系已具备替代部分人工评估的潜力，有助于降低大规模评估的成本。

综上所述，TREC 2025 RAG 赛道不仅展示了当前最先进系统在复杂信息需求下的表现，更重要的是确立了一套针对深度推理和事实性生成的新评估范式，为未来构建更智能、更可靠的检索增强生成系统指明了方向。