Each language version is independently generated for its own context, not a direct translation.

事件の「なぜ」を突き止める AI の新技術：AILS-NTUA の挑戦

この論文は、2026 年に開催された「SemEval（セムエバル）」という AI の能力を競う大会の第 12 タスクで優勝したチーム（AILS-NTUA）の報告書です。

彼らが挑んだのは、**「ある出来事が起きたとき、その『本当の理由』は何か？」**を AI に考えさせるという、非常に難しい問題です。

これを理解するために、3 つのステップに分けて、わかりやすい例え話で説明しましょう。

1. 課題：「なぜ？」という問いの難しさ

Imagine you are a detective. You find a broken vase on the floor.
（想像してください。あなたは探偵です。床に割れた花瓶を見つけました。）

単純な AIは、「猫が飛び跳ねたから」と即座に答えるかもしれません。
しかし、本当の理由（帰納的推論）はもっと複雑かもしれません。「地震があった→棚が揺れた→花瓶が落ちた→猫が驚いて飛び跳ねた」という因果の連鎖があるかもしれません。

今回の大会では、AI に「出来事」と「関連するニュース記事（証拠）」を与え、「最も直接的で plausible（もっともらしい）な原因」を選ばせるというテストを行いました。AI は、単なる偶然の一致ではなく、**「本当に原因と言えるもの」**を見極める必要があります。

2. 優勝システムの仕組み：3 段階の「名探偵」チーム

このチームは、AI が失敗しないように、3 つの段階（ステージ）で構成されたシステムを開発しました。まるで、名探偵が事件を解決するプロセスのようです。

ステージ 1：情報の整理（「ノイズ」を消し去る）

【アナロジー：図書館の整理】
AI に与えられる証拠（ニュース記事）は、山ほどあります。その中には、事件と関係ない「邪魔な情報（ダスター）」も混ざっています。

彼らの方法：彼らは「グラフ（つなぎ目）」という地図を作りました。似たような記事同士を線で結び、**「事件の核心に関係するつながり」**だけをたどって情報を集めました。
効果：これにより、AI は「関係ない情報」に惑わされず、**「本当に必要な証拠」**だけを集中して読めるようになりました。まるで、図書館で必要な本だけを素早く見つけ出し、他の本は棚に戻すようなものです。

ステージ 2：思考のプロセス（「考える時間」を与える）

【アナロジー：頭の中のメモ】
AI にいきなり「答えは？」と聞くと、慌てて適当なことを言うことがあります。

彼らの方法：AI に**「分析ノート**（思考の過程）を書かせました。「A は違う、B は証拠がある、C は…」と、答えを出す前に理由を説明させるのです。さらに、この「答え方」を AI 自身に何度も改善させました（リフレクティブ・プロンプティング）。
効果：AI は「とりあえず答える」のではなく、「論理的に考えてから答える」ようになりました。これは、テストでいきなり答えを書くのではなく、計算過程を丁寧に書くのと同じ効果です。

ステージ 3：最終チェック（「矛盾」を直す）

【アナロジー：編集者の最終チェック】
AI は時々、論理破綻を起こします。例えば、「A が原因だ」と言いながら、同時に「A 以外のどれもない（None）」とも言ってしまったり、同じ内容を 2 回選んでしまったりします。

彼らの方法：AI の答えが出た後、**「論理的なルール」**というフィルターを通しました。「『None』を選んだら他は選べない」「同じ文章なら同じ扱いにする」といった、人間が当たり前に思っているルールを強制的に適用しました。
効果：これで、AI の「うっかりミス」や「矛盾」を 100% 修正し、答えの質を劇的に上げました。

3. 発見：AI が共通して犯す「3 つの間違い」

このシステムで 14 種類の AI をテストした結果、どんなに高性能な AI でも、同じ 3 つの「癖（バイアス）があることがわかりました。

連鎖の欠如（Causal chain incompleteness）
- 例え：「火事」の原因を聞かれて、「火がついた」までしか言わず、「なぜ火がついたか（放火犯がいた）」まで考えない。
- 現象：複雑な原因の連鎖の、一番最後の部分だけを見て、全体を無視してしまう。
直近の原因への執着（Proximate cause preference）
- 例え：「なぜ戦争が始まった？」と聞かれて、「昨日、銃が撃たれたから」と答える。本当の理由は「10 年前の政治対立」なのに。
- 現象：時間的に一番近い出来事を「原因」と思い込み、遠くの根本原因を見逃す。
派手さへの偏り（Salience bias）
- 例え：「経済が崩壊した原因」を聞かれて、「大統領が辞任した」という派手なニュースを選び、「実は 10 年前から借金が増え続けていた」という地味な事実を無視する。
- 現象：ニュースになりそうな派手な出来事を「原因」として選びがちで、地味だが重要な要因を見落とす。

4. 結果と未来

この「3 段階システム」は、大会の最終評価で95% の正解率を記録し、1 位になりました。

重要な発見：どんなに賢い AI でも、単体ではこれらの「癖」を完全に克服できません。しかし、**「情報の整理」「思考の強制」「論理チェック」**という人間のサポート（システム）を組み合わせることで、AI は驚くほど正確に「なぜ？」に答えられるようになります。

まとめ：
この論文は、AI 自体を「天才」にするのではなく、「天才が活躍するための環境（システム）をどう作ればよいかを示した成功例です。AI に「考える時間」と「矛盾チェック」を与え、必要な情報だけを与えれば、AI は私たちが思っている以上に、複雑な世界の「理由」を理解できることを証明しました。

Each language version is independently generated for its own context, not a direct translation.

AILS-NTUA at SemEval-2026 Task 12: 技術概要

本論文は、SemEval-2026 Task 12「帰納的イベント推論（Abductive Event Reasoning）」において、評価フェーズのリーダーボードで0.95の精度を記録し優勝したシステム「AILS-NTUA」の手法と分析を詳述しています。このタスクは、与えられたイベントと文書コンテキストに基づき、最も直接的かつ妥当な原因（帰納的推論）を特定するものです。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 問題定義と背景

タスク内容: 現実世界のイベントと、関連する文書（コンテキスト）が与えられ、そのイベントの最も直接的な原因を、4 つの候補選択肢（A-D）から特定するマルチラベル分類タスクです。「None of the causes is correct（いずれも正しくない）」という選択肢も含まれます。
課題: 大規模言語モデル（LLM）は事象の抽出や予測には優れていますが、不完全な情報から最も妥当な仮説を導き出す「帰納的推論（Abductive Reasoning）」においては、確定的な推論ルールとは異なり、並列的な思考と暗黙的な因果帰属を必要とするため、特に困難です。
評価指標: 完全一致（1.0 点）、部分一致（0.5 点）、誤り（0 点）のスコアリング方式が採用されています。

2. 提案手法：3 段階パイプライン

本研究では、以下の 3 つの段階からなるシステムを構築しました。

ステージ 1: グラフベースの検索とダミーフィルタリング

ハイブリッド文書グラフの構築: 各トピックに対して、文書間の類似性グラフ $G=(V, E)$ $G = (V, E)$ を構築します。
- エッジ重み: 密な埋め込み（Cohere Embed v4）による意味的類似度と、BM25+（エンティティブースティング付き）による語彙的類似度を、 $\alpha=0.7$ （密）と $0.3$（疎）の重み付けでハイブリッド化します。
- ノード: 個々の文書そのものを保持し、エンティティのみを抽出する GraphRAG とは異なり、因果推論に必要な完全な物語的コンテキストを維持します。
検索とフィルタリング:
- 検索時に、密・疎の両方の信号から上位の文書（Entry Points）を抽出し、そこから幅優先探索（BFS）で連結成分をトラバースします。
- 目的: 精度よりも**再現性（Recall）**を優先し、多段の因果連鎖を断ち切らないようにします。
- トピック全体のアグリゲーション: 同じトピック内の質問は重複する文書セットを持つため、トピック全体でキャッシュされたコンテキストを再利用し、コストを 87% 削減しつつ、91% のヒット率を達成しました。
- 結果として、利用可能な文書の約 73% を選択し、残りの 27% を「ダミー（ノイズ）」として除外します。

ステージ 2: LLM による帰納的推論とリフレクティブ・プロンプト設計

構造化プロンプト: XML 形式の「分析（）」後に「回答（）」を出力させる形式を採用し、思考の連鎖（Chain-of-Thought）を強制します。
GEPA によるプロンプト最適化:
- GEPA（Reflective Prompt Evolution）を用いてプロンプト設計空間を探索しました。
- 最適化されたプロンプトを直接ブラックボックスとして使用せず、そこから得られた構造的ヒューリスティック（例：単一ステップの因果推論、明示的な因果言語の優先、重複オプションの扱い）を最終プロンプト設計に反映させました。
自己整合性（Self-Consistency）: 温度パラメータ $\tau=1.0$ で $k=3$ 回のサンプリングを行い、各選択肢ごとの多数決（Majority Voting）で最終回答を決定します。

ステージ 3: 事後の整合性強制（Post-Hoc Consistency Enforcement）

決定論的ヒューリスティック: LLM の推論で発生しうる論理的矛盾を、8 つのヒューリスティックを用いて修正します。
- None 排他性: 「None of the others」が選択された場合、他の選択肢との同時選択を禁止します。
- 重複整合性: 同一テキストの選択肢が複数ある場合、それらの真偽値を一致させます。
- クロス質問チェック: 同じトピック内の兄弟質問間での整合性を保証します。
- 単一残存閉鎖: 論理的に 1 つの選択肢のみが残る場合、それを確定します。
これらのヒューリスティックは、モデルの予測に対して反復適用され（通常 2 回）、収束するまで修正を施します。

3. 主要な貢献と発見

技術的貢献

優勝システム: 評価フェーズで 0.95 のスコアを記録し、1 位となりました。
ハイブリッド検索とキャッシュ戦略: グラフベースの検索とトピック全体キャッシュの組み合わせにより、精度を維持しつつ推論コストを大幅に削減しました。
事後修正ヒューリスティックの重要性: プロンプト設計やモデル選択よりも、**事後の整合性強制（Post-hoc heuristics）**が最大の精度向上（開発セットで +5.6 ポイント）をもたらしました。

誤り分析と共通バイアスの発見

14 種類のモデル（7 つのファミリー）を対象としたクロスモデル誤り分析により、以下の3 つの共通帰納的バイアスが特定されました。これらはモデル固有ではなく、システム的な失敗モードです。

因果連鎖の不完全性（Causal chain incompleteness）: 多段階の因果連鎖において、一部のリンクのみを選択し、残りを省略する傾向（全誤りの 18/42）。
近接原因の選好（Proximate cause preference）: 遠隔的な条件よりも、時間的に最も近い原因を優先する傾向（11/42）。
顕著性バイアス（Salience bias）: 劇的でニュース性のある原因を、微妙な寄与因子よりも優先する傾向（9/42）。

これらのバイアスにより、モデルは**「単一原因デフォルト」**（正解が複数ある場合でも 1 つしか選ばない）という保守的な選択を行い、原因数の推定が 51% 減少していました。

4. 実験結果

ベースライン性能: 15 の LLM におけるゼロショット性能は 0.611〜0.828 の範囲でした。「拡張思考（Extended Thinking）」機能を持つモデル（例：Claude Sonnet 4.5 Thinking）が最も高いスコア（0.828）を記録しました。
各コンポーネントの寄与:
- グラフ検索: 小規模モデルには大きな効果（+9 ポイント）がありましたが、最先端モデルには限定的でした。
- 自己整合性: modest な向上（+1.6 ポイント程度）をもたらしました。
- 事後ヒューリスティック: 最大の改善要因でした。Claude Sonnet 4.5 Thinking は、ヒューリスティック適用により 0.828 から 0.884（+5.6 ポイント）へと向上しました。
テストセット結果: 最終的に、Claude Sonnet 4.5 Thinking に事後ヒューリスティックを適用した構成で0.952のスコアを達成し、優勝しました。
アノテーションの限界: 14 モデルすべてが正解できなかった「解けない質問」は 3 問のみでしたが、モデル間の合意度（Fleiss' κ）は 0.690（実質的合意）であり、モデルの組み合わせ（Oracle）でも上限は 0.895 にとどまりました。

5. 意義と結論

本論文は、LLM による帰納的推論タスクにおいて、単なるモデルの能力向上だけでなく、構造的な整合性を保証するシステム設計（特にグラフ検索と事後ヒューリスティック）が極めて重要であることを示しました。

また、異なるモデルファミリーにまたがって共通する「因果推論のバイアス」を定量的に実証し、これが単なるプロンプトの欠陥ではなく、事前学習に由来する体系的な限界であることを明らかにしました。将来的には、これらのバイアスを克服するために、ターゲットを絞ったアンサンブル学習やマルチエージェントアーキテクチャの導入が有効である可能性が示唆されています。

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning