AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个名为 AILS-NTUA 的团队，如何在 2026 年的一项名为"SemEval-2026"的顶级人工智能比赛中，通过一套巧妙的“三步走”策略，夺得了冠军（准确率高达 95%）。

这项比赛的核心任务是**“溯因推理”（Abductive Reasoning）。简单来说，就是给 AI 看一个发生的事件（比如“某国总统辞职了”）和一堆背景资料，让 AI 找出最合理、最直接的原因**（比如“是因为发生了大地震”还是“因为经济崩盘”）。

这就像是在玩一个**“侦探破案”**的游戏，但难点在于：线索可能很模糊，而且往往不止一个原因导致了结果。

为了赢得比赛，他们设计了一个**“三阶段侦探系统”**。我们可以用三个生动的比喻来理解：

第一阶段：去粗取精的“图书馆管理员” (基于图的检索)

问题： 比赛给 AI 的资料库里有几百篇文档，但很多是“噪音”（比如只提到相关名词但没讲因果关系的文章）。如果让 AI 全读一遍，它会被淹没，就像让一个人在大海里找一根针。

解决方案： 团队没有让 AI 盲目阅读，而是先建了一张**“关系网”**。

比喻： 想象你有一堆散乱的报纸。普通的搜索是拿关键词去搜，容易搜到一堆不相关的。而这个系统像是一个超级图书管理员，他把所有报纸按内容相似度连成了一张大网。
操作： 当问题出现时，管理员先找到几篇最相关的“入口文章”，然后顺着网线（关系网）把那些紧密相连的文章都找出来。那些孤零零、跟主线没关系的“捣乱文章”（干扰项）直接被过滤掉。
效果： 这就像把大海缩小成了一个池塘，让 AI 只关注真正有用的线索，既省时间又提高了找对线索的概率。

第二阶段：深思熟虑的“大侦探” (大模型推理与提示优化)

问题： 即使有了好线索，AI 有时候也会“想当然”或者“偷懒”，直接猜一个最显眼的答案，而忽略了复杂的逻辑链条。

解决方案： 他们给 AI 设计了一套**“先思考，后回答”**的严格流程，并且用了一种叫“反思进化”的方法来训练 AI 怎么提问。

比喻： 普通的 AI 回答像是**“脱口秀演员”，想到哪说到哪。而这个系统要求 AI 像“福尔摩斯”一样，必须先写一份“侦探笔记”**（Analysis），在笔记里把每个选项的来龙去脉都分析一遍，最后才写下结论（Answer）。
反思进化 (GEPA)： 他们让 AI 自己不断“复盘”之前的错误。就像教练给运动员看录像，告诉它：“你刚才选 B 是因为太关注新闻头条了，其实 C 才是根本原因。”通过这种不断的自我修正，AI 学会了更严谨的推理方式。

第三阶段：铁面无私的“质检员” (事后一致性检查)

问题： 即使是大侦探，偶尔也会犯糊涂，比如逻辑自相矛盾（既选了“没有原因”又选了“某个具体原因”），或者对同一个重复的选项给出了不同的判断。

解决方案： 在 AI 给出最终答案后，系统会运行一套**“逻辑安检”**程序。

比喻： 这就像工厂流水线最后的**“质检员”**。
- 互斥检查： 如果 AI 选了“以上皆非”，质检员会立刻检查它是不是还选了其他选项。如果是，直接判定逻辑错误，强制修正。
- 重复检查： 如果选项 A 和选项 B 的文字完全一样，质检员会确保 AI 对它们的判断也是一致的（要么都选，要么都不选）。
- 跨题检查： 如果同一个事件在不同问题里被问到，质检员会确保 AI 的逻辑前后一致，不会“出尔反尔”。
效果： 这一步虽然看起来简单，但却是提分最多的关键！它把很多因为“手滑”或“逻辑混乱”导致的错误修正了，让最终成绩从 82% 飙升到了 95%。

他们发现了什么“人类（AI）通病”？

除了赢比赛，团队还通过对比 14 种不同的 AI 模型，发现了一个有趣的现象：所有的 AI 都有三种共同的“思维偏见”，就像人类侦探容易犯的错误一样：

断章取义 (因果链不完整)： AI 喜欢只抓因果链条中的一环。比如，事件是“总统辞职”，原因链条是“经济差 -> 股市崩盘 -> 总统辞职”。AI 往往只选“股市崩盘”，却忽略了更根本的“经济差”。
近因偏好 (只看眼前)： AI 倾向于认为最近发生的事情才是原因，而忽略了那些虽然发生得早、但才是真正“导火索”的事件。
戏剧性偏见 (只看热闹)： AI 容易被惊天动地的新闻吸引（比如“爆炸”、“暗杀”），而忽略了那些平淡无奇但至关重要的原因（比如“长期政策失误”）。

总结

这篇论文告诉我们，想要让 AI 真正像人类一样进行复杂的因果推理，光靠“喂”给 AI 更多数据是不够的。我们需要：

帮它过滤噪音（像图书管理员）；
强迫它慢下来思考（像写侦探笔记）；
最后还要有人帮它检查逻辑漏洞（像质检员）。

这套组合拳，让 AI 从“只会猜谜的机器”变成了“逻辑严密的侦探”，从而在复杂的现实世界推理任务中取得了巨大的成功。

Each language version is independently generated for its own context, not a direct translation.

1. 问题定义 (Problem Definition)

任务背景：
SemEval-2026 Task 12 旨在评估大型语言模型（LLM）在现实世界事件中的因果推理能力。具体任务是根据给定的事件描述和检索到的上下文文档，从四个候选解释（A, B, C, D）中识别出最直接或最合理的原因。

核心挑战：

归纳推理 (Abductive Reasoning)：不同于演绎推理，归纳推理需要从不完全信息中推断出最可能的解释。
多标签分类：一个问题可能有多个正确的原因（43.6% 的问题有多个正确答案），也可能包含“以上都不是”的选项。
干扰项过滤：上下文文档中包含大量与事件相关但非因果的“干扰项”（Distractors）。
模型偏差：LLM 倾向于选择单一原因，忽略因果链的完整性，或偏好时间上最近的原因而非根本原因。

2. 方法论 (Methodology)

该系统采用三阶段流水线架构，旨在通过检索增强、提示工程优化和逻辑一致性校验来提升推理质量。

阶段一：基于图的检索与干扰项过滤 (Graph-Based Retrieval)

混合文档图构建：
- 为每个主题构建文档相似度图 $G=(V, E)$ 。
- 边权重：结合稠密嵌入（Dense Embeddings, Cohere Embed v4）和稀疏检索（BM25+，带实体增强）的混合相似度。公式： $w(d_i, d_j) = \alpha \cdot sim_{sem} + (1-\alpha) \cdot sim_{lex}$ ，其中 $\alpha=0.7$ 。
- 策略：不同于传统的 GraphRAG（以实体为节点），该系统保留完整文档作为节点，以维持因果推理所需的叙事上下文。
检索流程：
1. 入口点选择：根据稠密和稀疏信号分别选取 Top-3 和 Top-2 文档作为种子（去重后共 5 个入口）。
2. 广度优先搜索 (BFS)：从种子节点遍历全连通分量，收集所有可达文档。
3. 过滤：排除未连通的文档（视为干扰项）。
4. 主题级聚合：同一主题下的问题共享文档上下文，通过缓存机制减少 87% 的推理成本。
效果：优先召回（Recall）而非精确率，确保多跳因果链不被切断，同时过滤掉 27% 的潜在干扰项。

阶段二：LLM 归纳推理与反思性提示优化 (LLM Reasoning & Reflective Prompting)

结构化提示 (Structured Prompting)：
- 采用 XML 格式 的“先分析后回答”（Analysis-before-Answer）模式。
- <analysis> 块：强制模型对每个选项进行独立推理，检查直接文本支持和逻辑充分性。
- <answer> 块：仅输出选项字母。
GEPA 提示优化：
- 使用 GEPA (Reflective Prompt Evolution) 框架通过 DSPy 自动探索提示空间。
- 策略：不直接使用生成的黑盒提示，而是提取 GEPA 发现的启发式规则（如：单步因果推理、显式因果语言优先、重复选项处理）来指导人工设计的最终提示。
自一致性 (Self-Consistency)：
- 在温度 $\tau=1.0$ 下采样 $k=3$ 次，通过选项级多数投票（Majority Voting）聚合结果。

阶段三：事后一致性强制 (Post-Hoc Consistency Enforcement)

核心思想：利用任务的结构属性，通过确定性启发式规则修正 LLM 的逻辑幻觉。
8 种启发式规则（迭代应用直至收敛，通常 2 次）：
1. 互斥性检查：如果选择了“以上都不是 (None)"，则不能选择其他选项。
2. 重复选项一致性：如果两个选项文本完全相同，必须同时选择或同时不选。
3. 跨问题传播：利用同一主题下共享目标事件的问题（Siblings），将逻辑约束传播到相关问题。
4. 单一剩余闭合：如果排除后只剩一个有效选项，则强制选择它。
作用：这些规则不依赖额外模型调用，而是基于逻辑不变量（Logical Invariants）进行修正。

3. 关键贡献 (Key Contributions)

系统架构创新：提出了结合混合图检索、反思性提示演化和确定性事后修正的三阶段系统，在评估中达到 0.95 的准确率。
广泛的模型评估：评估了 7 个家族（Claude, Gemini, OpenAI, DeepSeek, Llama, Kimi, Qwen）共 18 种模型配置，揭示了前沿模型在归纳推理上的性能差距。
系统性偏差分析：
- 对 14 个模型进行了详细的错误分析，发现了三个共享的归纳偏差：
  1. 因果链不完整 (Causal Chain Incompleteness)：模型只选择因果链中的某一个环节，忽略其他必要环节（占失败案例的 18/42）。
  2. 近因偏好 (Proximate Cause Preference)：倾向于选择时间上最近的原因，而非根本的促成条件（11/42）。
  3. 显著性偏差 (Salience Bias)：偏好戏剧性、新闻价值高的原因，忽略细微的促成因素（9/42）。
- 这些偏差导致模型倾向于保守的单原因选择，造成 51% 的原因计数减少。

4. 实验结果 (Results)

排行榜表现：
- 开发集 (Dev)：最佳模型（Claude Sonnet 4.5 Thinking）基础分为 0.828，经事后启发式修正后提升至 0.884 (+5.6 pp)。
- 测试集 (Test)：最终系统得分 0.952，排名第一。
组件贡献：
- 事后启发式 (Post-hoc Heuristics)：贡献最大，提升约 5.6 个百分点。
- 图检索：对小型模型（如 Haiku 3.5）提升显著（+9 pp），对前沿模型提升较小但稳定。
- 自一致性：单独使用提升有限（+1.6 pp），但与启发式结合效果更佳。
- 多模型集成：三个不同架构模型的集成（0.926）略低于经过启发式修正的最佳单一模型（0.952），表明单一模型经过优化后已极具竞争力。
错误分析数据：
- 在 42 个所有模型均未完全答对的问题中，83% 的共识预测是单选项，而正确答案平均需要 2.4 个选项。
- 存在一个“神谕上界”（Oracle Upper Bound）为 0.895，表明通过模型互补性（Ensemble）仍有约 6.7% 的提升空间。

5. 意义与启示 (Significance)

超越单纯提示工程：证明了在复杂因果推理任务中，单纯依赖 LLM 的推理能力是不够的。结合结构化检索（解决上下文噪声）和确定性逻辑修正（解决模型幻觉）是提升鲁棒性的关键。
揭示 LLM 的归纳推理局限：研究明确指出，当前 LLM 在因果推理中存在系统性的“单因默认”偏差，这并非特定模型的缺陷，而是跨家族共享的归纳偏差。这为未来的模型训练和评估提供了重要方向。
高效推理策略：通过主题级上下文缓存和事后确定性修正，系统在大幅降低推理成本（87%）的同时，显著提升了准确率，为实际部署提供了可行的工程范式。
提示优化的新视角：展示了利用自动提示优化（GEPA）发现数据偏差（如重复选项、互斥选项）并转化为确定性规则（而非仅仅依赖提示词）的有效性。

总结：AILS-NTUA 的成功不仅在于模型的选择，更在于构建了一个**“检索 - 推理 - 修正”**的闭环系统，有效地弥补了 LLM 在因果链条理解和多标签决策上的固有缺陷。

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

第一阶段：去粗取精的“图书馆管理员” (基于图的检索)

第二阶段：深思熟虑的“大侦探” (大模型推理与提示优化)

第三阶段：铁面无私的“质检员” (事后一致性检查)

他们发现了什么“人类（AI）通病”？

总结

1. 问题定义 (Problem Definition)

2. 方法论 (Methodology)

阶段一：基于图的检索与干扰项过滤 (Graph-Based Retrieval)

阶段二：LLM 归纳推理与反思性提示优化 (LLM Reasoning & Reflective Prompting)

阶段三：事后一致性强制 (Post-Hoc Consistency Enforcement)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与启示 (Significance)

类似论文

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models