AILS-NTUA at SemEval-2026 Task 8: Evaluating Multi-Turn RAG Conversations

本文介绍了 AILS-NTUA 团队在 SemEval-2026 任务 8 中提出的统一架构,该架构通过“查询多样性优于检索器多样性”策略及多阶段生成流程,在段落检索子任务中取得第一名,并在基于引用的回复生成子任务中获得第二名。

Dimosthenis Athanasiou, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是雅典国家技术大学(NTUA)的一个团队(AILS-NTUA)参加了一场名为"SemEval-2026"的顶级人工智能比赛。他们的任务是解决一个非常棘手的问题:如何让 AI 在像人类一样进行多轮对话时,既能记住上下文,又能准确地从海量资料中找到答案,并且不胡编乱造。

为了让你更容易理解,我们可以把整个系统想象成一家超级高效的“智能图书馆”和“专家团队”

1. 核心挑战:对话中的“断片”与“幻觉”

想象一下,你和一个朋友在聊天。

  • 第一轮:你问“苹果公司的股价是多少?”朋友查了资料回答了你。
  • 第二轮:你接着问“那它的竞争对手呢?”
  • 问题:如果你直接问“那它的竞争对手呢?”,AI 如果不懂上下文,它可能会以为你在问“水果里的苹果”,或者完全不知道“它”指的是谁。
  • 更糟的情况:如果 AI 没找到资料,它可能会为了显得聪明而编造一个答案(这叫“幻觉”)。

这个比赛的任务就是让 AI 在多轮对话中,既能听懂“它”指代什么,又能从成千上万份文档里精准找到答案,如果找不到,还要诚实地说“我不知道”。

2. 他们的解决方案:两大法宝

法宝一:检索系统 = “五路侦探” + “超级裁判”

当用户问一个问题时,系统不会只派一个侦探去查资料,而是派出了五个不同风格的侦探(这就是论文里说的“查询重写策略”):

  1. 极简侦探:把“那它的竞争对手呢?”补全为“苹果公司的竞争对手是谁?”。
  2. 专业侦探:把口语转换成文档里常用的专业术语。
  3. 脑洞侦探:先假设一个答案,看看能不能在文档里找到匹配的描述。
  4. 逻辑侦探:一步步推理,把问题拆解清楚。
  5. 关键词侦探:提取最核心的名词和关键词。

比喻:这就好比你要找一份文件,你让五个人分别用不同的方式去描述这份文件。

  • 关键创新:以前大家喜欢找五个不同的“图书馆”(不同的检索模型)来查。但这篇论文发现,与其找五个不同的图书馆,不如让同一个图书馆里的五个侦探用不同的方法去查
  • 结果:他们发现,让同一个检索引擎(ELSER)配合这五种不同的提问方式,比找五个不同的引擎效果更好。最后,他们用一个“超级裁判”(嵌套的排名融合算法)把五个侦探找到的结果综合起来,去粗取精,选出最靠谱的前几名。

法宝二:生成系统 = “起草 - 审核 - 定稿”流水线

找到资料后,怎么回答用户?他们设计了一个多阶段流水线,就像一家严谨的出版社:

  1. 第一步:能不能答?(可答性检测)
    • 先让 AI 看看找到的资料。如果资料里完全没有答案,AI 必须学会闭嘴,诚实地说“资料不足,无法回答”,而不是瞎编。这是防止“幻觉”的第一道防线。
  2. 第二步:提取证据
    • 不让 AI 通读整本书,而是让它像做笔记一样,把文档里原封不动的几句话(证据片段)抄下来。这就像做阅读理解时划重点。
  3. 第三步:双稿起草
    • 让 AI 根据划好的重点,写两个版本的回答:
      • 版本 A:非常严谨,死扣原文,像学术报告。
      • 版本 B:稍微自然一点,像日常聊天。
  4. 第四步:双评委打分
    • 技术评委:检查有没有胡说八道,是不是完全基于划的重点。
    • 用户评委:检查读起来顺不顺,像不像人话。
  5. 第五步:最终定稿
    • 根据评委的打分,选出一个最好的答案。如果两个都不行,就拒绝回答。

3. 比赛成绩:为什么他们赢了?

  • 任务 A(找资料):他们拿了第一名
    • 原因:他们证明了“多策略提问”比“多模型堆砌”更有效。就像让一个熟悉地形的人用五种不同的地图去查路,比找五个不熟悉地形的人各查一次要准得多。
  • 任务 B(写回答):他们拿了第二名
    • 原因:他们的“双稿 + 双评委”机制非常有效,既保证了答案准确(不瞎编),又保证了读起来自然。
  • 任务 C(端到端,即自己找资料自己写):排名稍后(第 11 名)。
    • 原因:这是最难的。因为如果第一步“找资料”找错了,后面写得再好也没用。论文发现,最大的瓶颈不是写得好不好,而是能不能准确判断“这个问题到底有没有答案”。如果 AI 太自信,在没资料的时候强行回答,分数就会大跌。

4. 总结与启示

这篇论文的核心思想可以概括为:“稳”比“快”重要,“质”比“量”重要。

  • 不要盲目堆模型:与其用一堆不同的 AI 模型去撞运气,不如把一个模型用透,通过改变提问方式来挖掘它的潜力。
  • 学会说“不知道”:在 AI 领域,承认“我不知道”往往比编造一个看似合理的答案更重要。他们的系统通过严格的“证据审核”机制,大大减少了胡编乱造。
  • 流程化思维:把复杂的任务拆解成“找证据 -> 写草稿 -> 审核 -> 定稿”的小步骤,每一步都做好,整体效果就最好。

一句话总结
AILs-NTUA 团队通过让 AI 像五路侦探一样多角度提问,并像严谨的出版社一样先找证据、再写稿、最后审核,成功解决了 AI 在聊天中容易“断片”和“胡编乱造”的难题,在找资料方面拿到了世界冠军。