AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是雅典国家技术大学（NTUA）的一个团队（AILS-NTUA）参加了一场名为"SemEval-2026"的顶级人工智能比赛。他们的任务是解决一个非常棘手的问题：如何让 AI 在像人类一样进行多轮对话时，既能记住上下文，又能准确地从海量资料中找到答案，并且不胡编乱造。

为了让你更容易理解，我们可以把整个系统想象成一家超级高效的“智能图书馆”和“专家团队”。

1. 核心挑战：对话中的“断片”与“幻觉”

想象一下，你和一个朋友在聊天。

第一轮：你问“苹果公司的股价是多少？”朋友查了资料回答了你。
第二轮：你接着问“那它的竞争对手呢？”
问题：如果你直接问“那它的竞争对手呢？”，AI 如果不懂上下文，它可能会以为你在问“水果里的苹果”，或者完全不知道“它”指的是谁。
更糟的情况：如果 AI 没找到资料，它可能会为了显得聪明而编造一个答案（这叫“幻觉”）。

这个比赛的任务就是让 AI 在多轮对话中，既能听懂“它”指代什么，又能从成千上万份文档里精准找到答案，如果找不到，还要诚实地说“我不知道”。

2. 他们的解决方案：两大法宝

法宝一：检索系统 = “五路侦探” + “超级裁判”

当用户问一个问题时，系统不会只派一个侦探去查资料，而是派出了五个不同风格的侦探（这就是论文里说的“查询重写策略”）：

极简侦探：把“那它的竞争对手呢？”补全为“苹果公司的竞争对手是谁？”。
专业侦探：把口语转换成文档里常用的专业术语。
脑洞侦探：先假设一个答案，看看能不能在文档里找到匹配的描述。
逻辑侦探：一步步推理，把问题拆解清楚。
关键词侦探：提取最核心的名词和关键词。

比喻：这就好比你要找一份文件，你让五个人分别用不同的方式去描述这份文件。

关键创新：以前大家喜欢找五个不同的“图书馆”（不同的检索模型）来查。但这篇论文发现，与其找五个不同的图书馆，不如让同一个图书馆里的五个侦探用不同的方法去查。
结果：他们发现，让同一个检索引擎（ELSER）配合这五种不同的提问方式，比找五个不同的引擎效果更好。最后，他们用一个“超级裁判”（嵌套的排名融合算法）把五个侦探找到的结果综合起来，去粗取精，选出最靠谱的前几名。

法宝二：生成系统 = “起草 - 审核 - 定稿”流水线

找到资料后，怎么回答用户？他们设计了一个多阶段流水线，就像一家严谨的出版社：

第一步：能不能答？（可答性检测）
- 先让 AI 看看找到的资料。如果资料里完全没有答案，AI 必须学会闭嘴，诚实地说“资料不足，无法回答”，而不是瞎编。这是防止“幻觉”的第一道防线。
第二步：提取证据。
- 不让 AI 通读整本书，而是让它像做笔记一样，把文档里原封不动的几句话（证据片段）抄下来。这就像做阅读理解时划重点。
第三步：双稿起草。
- 让 AI 根据划好的重点，写两个版本的回答：
  - 版本 A：非常严谨，死扣原文，像学术报告。
  - 版本 B：稍微自然一点，像日常聊天。
第四步：双评委打分。
- 技术评委：检查有没有胡说八道，是不是完全基于划的重点。
- 用户评委：检查读起来顺不顺，像不像人话。
第五步：最终定稿。
- 根据评委的打分，选出一个最好的答案。如果两个都不行，就拒绝回答。

3. 比赛成绩：为什么他们赢了？

任务 A（找资料）：他们拿了第一名。
- 原因：他们证明了“多策略提问”比“多模型堆砌”更有效。就像让一个熟悉地形的人用五种不同的地图去查路，比找五个不熟悉地形的人各查一次要准得多。
任务 B（写回答）：他们拿了第二名。
- 原因：他们的“双稿 + 双评委”机制非常有效，既保证了答案准确（不瞎编），又保证了读起来自然。
任务 C（端到端，即自己找资料自己写）：排名稍后（第 11 名）。
- 原因：这是最难的。因为如果第一步“找资料”找错了，后面写得再好也没用。论文发现，最大的瓶颈不是写得好不好，而是能不能准确判断“这个问题到底有没有答案”。如果 AI 太自信，在没资料的时候强行回答，分数就会大跌。

4. 总结与启示

这篇论文的核心思想可以概括为：“稳”比“快”重要，“质”比“量”重要。

不要盲目堆模型：与其用一堆不同的 AI 模型去撞运气，不如把一个模型用透，通过改变提问方式来挖掘它的潜力。
学会说“不知道”：在 AI 领域，承认“我不知道”往往比编造一个看似合理的答案更重要。他们的系统通过严格的“证据审核”机制，大大减少了胡编乱造。
流程化思维：把复杂的任务拆解成“找证据 -> 写草稿 -> 审核 -> 定稿”的小步骤，每一步都做好，整体效果就最好。

一句话总结：
AILs-NTUA 团队通过让 AI 像五路侦探一样多角度提问，并像严谨的出版社一样先找证据、再写稿、最后审核，成功解决了 AI 在聊天中容易“断片”和“胡编乱造”的难题，在找资料方面拿到了世界冠军。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于 AILS-NTUA 团队在 SemEval-2026 第 8 项任务（MTRAGEval） 中提出的多轮检索增强生成（Multi-Turn RAG）系统的详细技术总结。

1. 研究背景与问题定义

背景：
大型语言模型（LLM）虽然能力强大，但存在知识静态化（无法实时更新）和“幻觉”（无法溯源）的问题。检索增强生成（RAG）通过引入外部文档解决了部分问题，但现有的 RAG 系统多针对单轮查询设计。

核心问题：
在真实的多轮对话场景中，用户查询往往依赖于上下文（如指代消解、话题延续）。传统的 RAG 系统在处理多轮对话时面临以下挑战：

检索不稳定性：随着对话轮次增加，微小的查询改写错误会累积，导致证据检索质量下降。
上下文感知缺失：未能有效利用对话历史，导致检索内容与当前意图不匹配。
不可回答性判断困难：在检索到的文档可能不相关或信息不足时，系统难以准确判断是否应该拒绝回答，容易导致自信的错误（幻觉）。

任务目标：
SemEval-2026 Task 8 (MTRAGEval) 包含三个子任务：

任务 A：仅检索（从语料库中检索最相关的 10 个片段）。
任务 B：基于给定的参考片段生成回答。
任务 C：端到端 RAG（先检索，再生成，需判断是否可回答）。

2. 方法论与系统架构

AILS-NTUA 提出了一种统一架构，其核心设计理念是"查询多样性优于检索器多样性"以及"分阶段生成的证据承诺机制"。

2.1 任务 A：多策略检索 (Multi-Strategy Retrieval)

系统不依赖多个不同的检索器（Retriever Ensemble），而是使用单一与语料库对齐的稀疏检索器（ELSER v1），通过五种互补的查询改写策略来增强检索效果：

Minimal：解决指代消解和对话省略，将非独立查询转化为独立查询。
Corpus-Specific：根据特定领域（如维基百科、政府文件、技术文档）的术语调整查询。
HyDE (Hypothetical Document Embedding)：生成一个假设性的答案段落，利用该段落进行检索以缩小查询与文档的词汇鸿沟。
Chain-of-Thought (CoT)：通过逐步推理扩展信息需求。
Anchor-Keyword：提取关键实体和关键词，优化稀疏词汇匹配。

融合策略：

混合重排序 (Hybrid Reranking)：使用加权倒数秩融合 (Weighted RRF) 结合检索器和交叉编码器（Cross-Encoder）的排序。
嵌套 RRF 融合 (Nested RRF)：
- Level 1：将高方差策略（HyDE, CoT, Anchor-Keyword）聚合成一个“弱共识 (Weak Consensus)"排名。
- Level 2：将“弱共识”与两个高稳定性策略（Minimal, Corpus-Specific）通过语料库特定的加权 RRF进行最终融合。
- 优势：这种分层结构既利用了多样性带来的召回率提升，又通过稳定策略保证了 Top-k 的精度，避免了单一策略的噪声干扰。

2.2 任务 B：代理式生成管道 (Agentic Generation Pipeline)

将生成过程分解为多个决策阶段，以减少幻觉并提高事实准确性：

可回答性分类：判断当前轮次是否可回答，若不可回答则触发校准后的拒绝机制。
证据片段提取：从检索到的片段中提取原话（verbatim）句子，作为生成的输入，而非使用整个片段。
双候选生成：生成两个候选回答（一个贪婪生成 $\tau=0.0$ ，一个随机生成 $\tau=0.1$ ），均基于提取的证据。
基于裁判的选择 (Judge-Based Selection)：
- 技术裁判：评估忠实度（是否基于证据）和完整性。
- 用户满意度裁判：评估自然度（仅在部分轮次调用以节省成本）。
- 提取性塑形 (Extractiveness Shaping)：引入惩罚项，防止过度抽象（幻觉）或过度复制（机械重复），目标是将 4-gram 提取率控制在 28%-38% 之间。
微调 (Micro-Adjustments)：对最终答案进行长度和措辞的轻量级后处理。

2.3 任务 C：端到端 RAG

整合检索与生成，并增加可回答性门控：

使用任务 A 的管道检索 Top-5 片段。
利用三个专用裁判（文档裁判、片段裁判、答案裁判）从不同视角评估证据是否足以支持回答。
仲裁机制：通过置信度加权投票决定是生成回答还是拒绝。如果证据不足，系统会生成校准后的拒绝回答，避免幻觉。

3. 关键贡献

稳定性导向的多策略重写方法：证明了在单一检索器上通过控制改写方差（嵌套 RRF）比使用异构检索器集成更有效。该方法在不降低 Top-k 精度的情况下显著提升了召回率。
代理式证据承诺生成管道：通过分离“提取”、“起草”和“选择”阶段，并引入多裁判机制，显著减少了对话中的幻觉。
多轮检索失败模式的统一分析：
- 检索多样性有助于深度召回，但会损害早期精度（Top-k）。
- 交叉编码器是对稀疏检索的补充，但不能替代它。
- 一旦证据质量足够，LLM 重排序的收益会饱和。
- 核心发现：在端到端性能中，**可回答性校准（Answerability Calibration）**是主要瓶颈，而非检索覆盖率。

4. 实验结果

系统在 SemEval-2026 Task 8 中取得了优异成绩：

任务 A (检索)：
- 排名：第 1 名 (共 38 个系统)。
- 指标：nDCG@5 达到 0.5776，比最强的基线高出 20.5%。
- 分析：验证了“单一检索器 + 多查询多样性”假设的有效性。ELSER v1 配合多策略重写表现最佳。
任务 B (基于参考的生成)：
- 排名：第 2 名 (共 26 个系统)。
- 指标：调和平均数 (HM) 为 0.7698。
- 表现：在忠实度 (RLF=0.8971) 和 LLM 裁判质量 (RBllm=0.8321) 上表现强劲，表明 grounding 机制有效。
任务 C (端到端 RAG)：
- 排名：第 11 名。
- 指标：HM 为 0.5409。
- 分析：从任务 B 到任务 C 的性能下降（0.7698 $\to$ 0.5409）主要由可回答性分类错误引起，而非检索或生成质量本身。测试集中不可回答的样本比例（19.1%）远高于开发集（6.5%），加剧了这一瓶颈。

5. 意义与局限性

意义：

该研究证明了在资源受限（单一检索器）的情况下，通过查询改写多样性和生成阶段的证据控制，可以显著提升多轮 RAG 系统的性能。
提出的“嵌套 RRF"和“多裁判选择”机制为处理多轮对话中的累积误差提供了新的思路。
揭示了当前多轮 RAG 系统的核心瓶颈在于可回答性判断，而非单纯的检索或生成能力。

局限性：

分布偏移：系统完全在开发集上微调，而测试集在不可回答率（3 倍增加）和对话结构（全为非首轮）上存在显著差异，导致参数（如置信度阈值）可能未达最优。
错误传播：多轮对话中的检索错误会级联影响后续轮次，系统目前缺乏有效的跨轮次错误恢复机制。
成本：虽然采用了模型路由策略降低成本，但多阶段生成和裁判机制仍增加了推理延迟。

总结：
AILS-NTUA 的系统通过精细化的查询改写策略和分阶段的生成控制，在多轮 RAG 任务中取得了 SOTA 级别的检索性能和极具竞争力的生成质量，为未来构建更稳健、可信赖的对话式 AI 系统提供了重要的技术参考。