AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

本文介绍了 AILS-NTUA 团队在 SemEval-2026 第 12 项任务中提出的获奖三阶段系统,该系统通过结合基于图的检索、基于反思提示演进的 LLM 推理及后处理一致性约束,以 0.95 的准确率夺得榜首,并揭示了跨模型因果推理中存在的三种系统性归纳偏差。

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos, Athanasios Voulodimos, Giorgos Stamou

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个名为 AILS-NTUA 的团队,如何在 2026 年的一项名为"SemEval-2026"的顶级人工智能比赛中,通过一套巧妙的“三步走”策略,夺得了冠军(准确率高达 95%)。

这项比赛的核心任务是**“溯因推理”(Abductive Reasoning)。简单来说,就是给 AI 看一个发生的事件(比如“某国总统辞职了”)和一堆背景资料,让 AI 找出最合理、最直接的原因**(比如“是因为发生了大地震”还是“因为经济崩盘”)。

这就像是在玩一个**“侦探破案”**的游戏,但难点在于:线索可能很模糊,而且往往不止一个原因导致了结果。

为了赢得比赛,他们设计了一个**“三阶段侦探系统”**。我们可以用三个生动的比喻来理解:

第一阶段:去粗取精的“图书馆管理员” (基于图的检索)

问题: 比赛给 AI 的资料库里有几百篇文档,但很多是“噪音”(比如只提到相关名词但没讲因果关系的文章)。如果让 AI 全读一遍,它会被淹没,就像让一个人在大海里找一根针。

解决方案: 团队没有让 AI 盲目阅读,而是先建了一张**“关系网”**。

  • 比喻: 想象你有一堆散乱的报纸。普通的搜索是拿关键词去搜,容易搜到一堆不相关的。而这个系统像是一个超级图书管理员,他把所有报纸按内容相似度连成了一张大网。
  • 操作: 当问题出现时,管理员先找到几篇最相关的“入口文章”,然后顺着网线(关系网)把那些紧密相连的文章都找出来。那些孤零零、跟主线没关系的“捣乱文章”(干扰项)直接被过滤掉。
  • 效果: 这就像把大海缩小成了一个池塘,让 AI 只关注真正有用的线索,既省时间又提高了找对线索的概率。

第二阶段:深思熟虑的“大侦探” (大模型推理与提示优化)

问题: 即使有了好线索,AI 有时候也会“想当然”或者“偷懒”,直接猜一个最显眼的答案,而忽略了复杂的逻辑链条。

解决方案: 他们给 AI 设计了一套**“先思考,后回答”**的严格流程,并且用了一种叫“反思进化”的方法来训练 AI 怎么提问。

  • 比喻: 普通的 AI 回答像是**“脱口秀演员”,想到哪说到哪。而这个系统要求 AI 像“福尔摩斯”一样,必须先写一份“侦探笔记”**(Analysis),在笔记里把每个选项的来龙去脉都分析一遍,最后才写下结论(Answer)。
  • 反思进化 (GEPA): 他们让 AI 自己不断“复盘”之前的错误。就像教练给运动员看录像,告诉它:“你刚才选 B 是因为太关注新闻头条了,其实 C 才是根本原因。”通过这种不断的自我修正,AI 学会了更严谨的推理方式。

第三阶段:铁面无私的“质检员” (事后一致性检查)

问题: 即使是大侦探,偶尔也会犯糊涂,比如逻辑自相矛盾(既选了“没有原因”又选了“某个具体原因”),或者对同一个重复的选项给出了不同的判断。

解决方案: 在 AI 给出最终答案后,系统会运行一套**“逻辑安检”**程序。

  • 比喻: 这就像工厂流水线最后的**“质检员”**。
    • 互斥检查: 如果 AI 选了“以上皆非”,质检员会立刻检查它是不是还选了其他选项。如果是,直接判定逻辑错误,强制修正。
    • 重复检查: 如果选项 A 和选项 B 的文字完全一样,质检员会确保 AI 对它们的判断也是一致的(要么都选,要么都不选)。
    • 跨题检查: 如果同一个事件在不同问题里被问到,质检员会确保 AI 的逻辑前后一致,不会“出尔反尔”。
  • 效果: 这一步虽然看起来简单,但却是提分最多的关键!它把很多因为“手滑”或“逻辑混乱”导致的错误修正了,让最终成绩从 82% 飙升到了 95%。

他们发现了什么“人类(AI)通病”?

除了赢比赛,团队还通过对比 14 种不同的 AI 模型,发现了一个有趣的现象:所有的 AI 都有三种共同的“思维偏见”,就像人类侦探容易犯的错误一样:

  1. 断章取义 (因果链不完整): AI 喜欢只抓因果链条中的一环。比如,事件是“总统辞职”,原因链条是“经济差 -> 股市崩盘 -> 总统辞职”。AI 往往只选“股市崩盘”,却忽略了更根本的“经济差”。
  2. 近因偏好 (只看眼前): AI 倾向于认为最近发生的事情才是原因,而忽略了那些虽然发生得早、但才是真正“导火索”的事件。
  3. 戏剧性偏见 (只看热闹): AI 容易被惊天动地的新闻吸引(比如“爆炸”、“暗杀”),而忽略了那些平淡无奇但至关重要的原因(比如“长期政策失误”)。

总结

这篇论文告诉我们,想要让 AI 真正像人类一样进行复杂的因果推理,光靠“喂”给 AI 更多数据是不够的。我们需要:

  1. 帮它过滤噪音(像图书管理员);
  2. 强迫它慢下来思考(像写侦探笔记);
  3. 最后还要有人帮它检查逻辑漏洞(像质检员)。

这套组合拳,让 AI 从“只会猜谜的机器”变成了“逻辑严密的侦探”,从而在复杂的现实世界推理任务中取得了巨大的成功。