Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ "사건의 진짜 이유를 찾아라": AILS-NTUA 팀의 우승 비결

안녕하세요! 이 논문은 SemEval 2026이라는 AI 경진대회에서 1 등을 한 팀 (AILS-NTUA) 의 이야기입니다. 이 대회의 미션은 아주 흥미롭습니다. 바로 **"어떤 사건이 일어났을 때, 그 진짜 원인 (이유) 을 추론하는 것"**입니다.

예를 들어, "어느 날 갑자기 서울의 지하철이 멈췄다"는 사건이 발생했을 때, AI 는 왜 멈췄는지 (전력 고장? 테러? 시스템 오류?) 를 문맥을 보고 추리해야 합니다. 이를 **'귀납적 추론 (Abductive Reasoning)'**이라고 하는데, AI 에게는 꽤 까다로운 시험입니다.

이 팀이 어떻게 95% 라는 압도적인 점수로 1 등을 했는지, 쉬운 비유로 설명해 드릴게요.

🏗️ 1 단계: '수색대'를 보내는 것 (그래프 기반 검색)

AI 가 사건을 추리할 때 가장 먼저 하는 실수는 **관련 없는 정보 (산만한 정보)**까지 다 읽으려다 지치는 것입니다. 마치 수사관이 사건 현장에 온 모든 사람의 말 (관련자, 목격자, 심지어 지나가던 개까지) 을 다 듣고 결론을 내리려다 혼란에 빠지는 것과 비슷하죠.

이 팀은 **'그래프 기반 검색'**이라는 기술을 썼습니다.

비유: 사건 관련 문서들을 거대한 **'연결된 그물'**로 만들었습니다.
작동 방식: 질문이 들어오면, 가장 관련 있는 문서 2~3 개를 먼저 찾고, 그 문서들과 '친구 관계' (유사성) 가 있는 다른 문서들도 따라가서 모았습니다.
효과: 이렇게 하면 사건과 직접적인 연관이 없는 '산만한 정보 (Distractor)'는 걸러내고, 진짜 핵심 증거들만 모아서 AI 에게 줍니다. 마치 수사관이 불필요한 소문은 무시하고, 사건과 직접 연결된 단서들만 모아 수사하는 것과 같습니다.

🧠 2 단계: '생각하는 AI'에게 질문하기 (반성적 프롬프트)

문서만 모인다고 해서 AI 가 바로 정답을 내는 건 아닙니다. AI 는 때로는 무작정 답을 말하려 하거나, 논리가 부족할 때가 있습니다.

이 팀은 AI 에게 **"답을 말하기 전에, 먼저 생각 과정을 써보라"**고 시켰습니다.

비유: 시험지를 받을 때, 정답만 적는 게 아니라 **"왜 이 답을 고르게 되었는지"**를 먼저 적게 하는 것입니다.
작동 방식: AI 가 각 보기를 분석하며 "A 는 근거가 부족해, B 는 문맥상 맞는데..."라고 스스로에게 말하게 합니다.
혁신: 이 팀은 AI 가 스스로 "어? 내가 방금 실수했네?"라고 깨닫고 질문을 다시 고치게 만드는 '반성 (Reflection)' 기술을 썼습니다. 마치 학생이 문제를 풀고 나서 "아, 내가 이 부분을 잘못 이해했구나"라고 스스로를 점검하는 것과 같습니다.

🛡️ 3 단계: '논리 경찰'이 최종 점검 (일관성 검증)

AI 가 아무리 똑똑해도 가끔은 **"모순된 말"**을 합니다. 예를 들어, "A 가 원인이다"라고 하면서 동시에 "A 는 원인이 아니다"라고 하거나, "아무것도 아니다"라고 하면서 다른 것도 고르는 식이죠.

이 팀은 마지막 단계에서 **'논리 경찰 (Heuristics)'**을 투입했습니다.

비유: AI 가 쓴 답안을 받아서, **"이건 말이 안 되잖아!"**라고 지적해주는 교정 선생님이 있는 셈입니다.
작동 방식:
- "A 와 B 는 같은 내용인데, 왜 하나만 골랐지? 둘 다 고르거나 하나도 고르지 말아야지!"
- "아무것도 원인이 아니라고 했는데, 왜 C 를 골랐어? 모순이야!"
- "이 사건과 관련된 다른 질문에서 A 를 골랐는데, 여기서는 왜 안 골랐어?"
효과: 이런 사소한 실수들을 자동으로 수정해주니, 점수가 확 올라갔습니다.

🔍 AI 가 자주 하는 실수 (3 가지 편향)

이 팀은 14 개의 다른 AI 모델을 분석하며, AI 들이 공통적으로 저지르는 3 가지 실수를 발견했습니다.

연결 고리 끊어짐 (Causal Chain Incompleteness):
- 비유: "비가 와서 땅이 젖었다"는 사실을 알면서, "구름이 빗물을 머금었다"는 시작 부분을 잊어버리는 것입니다. AI 는 중간 단계만 보고 전체 흐름을 놓칩니다.
가장 최근 원인 선호 (Proximate Cause Preference):
- 비유: "집이 불탔다"는 사건에서, "화재 경보가 울렸다"는 직전 사건을 원인으로 여기고, "전기 배선이 노후화되어 있었다"는 진짜 근본 원인을 무시합니다. AI 는 시간적으로 가장 가까운 것을 원인으로 착각합니다.
눈에 띄는 것 선호 (Salience Bias):
- 비유: "폭발 사고가 났다"는 사건에서, "사람들이 다쳤다"는 드라마틱한 결과를 원인으로 생각하지, "화약고 관리 소홀"이라는 조용한 원인을 놓칩니다. AI 는 소란스러운 것만 보고 진짜 이유를 놓칩니다.

🏆 결론: 왜 이 팀이 1 등했나?

이 팀은 단순히 "더 똑똑한 AI"를 쓴 게 아닙니다. 그들은 AI 가 약한 점을 보완하는 시스템을 만들었습니다.

수색대가 불필요한 정보를 걸러내고 (검색),
생각하는 AI가 논리적으로 추론하게 하고 (프롬프트),
논리 경찰이 마지막에 실수를 잡아줍니다 (검증).

이 3 단계 시스템이 완벽하게 작동하여, 다른 어떤 AI 보다도 사건과 그 원인을 정확하게 연결 지을 수 있었습니다. 마치 최고의 탐정이 수사관, 분석가, 그리고 검사를 모두 한 명에 합친 것처럼 말이죠!

이 연구는 AI 가 단순히 정보를 외우는 것을 넘어, 진짜 이유를 추론하는 능력을 키우는 데 중요한 이정표가 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

이 논문은 SemEval-2026 Task 12인 "Abductive Event Reasoning (귀납적 사건 추론)" 과제를 다룹니다.

목표: 주어진 실제 세계의 사건 (Event) 과 관련 문서 (Context) 를 바탕으로, 해당 사건의 가장 직접적이고 타당한 원인 (Cause) 을 추론하는 것입니다.
특징:
- 단일 단계 추론이 아닌, 불완전한 정보에서 가장 그럴듯한 가설을 도출하는 귀납적 추론 (Abductive Reasoning) 이 요구됩니다.
- 입력은 사건 설명과 관련 문서 집합이며, 4 개의 후보 설명 (A, B, C, D) 중 하나 이상을 선택하거나 "모두 틀림"을 고르는 다중 레이블 분류 문제입니다.
- 기존 LLM 들은 인과 관계 (Causality) 와 단순 상관관계 (Correlation) 를 구분하거나, 다중 원인을 동시에 식별하는 데 어려움을 겪는 것으로 알려져 있습니다.

2. 제안된 방법론 (Methodology)

저자들은 평가 단계 리더보드에서 1 위 (정확도 0.95) 를 기록한 3 단계 파이프라인 시스템을 제안했습니다.

Stage 1: 그래프 기반 검색 및 오답 필터링 (Graph-Based Retrieval)

하이브리드 문서 그래프 구축: 각 주제 (Topic) 에 대해 문서 간 유사성 그래프를 구축합니다.
- 밀집 임베딩 (Dense): Cohere Embedding v4 사용.
- 희소 검색 (Sparse): BM25+ (엔티티 부스팅 포함) 사용.
- 가중치: $\alpha=0.7$ (밀집) + $0.3$ (희소) 로 하이브리드 가중치를 적용합니다.
검색 전략:
- 질의 (Query) 시 밀집/희소 신호의 상위 문서 (3 개 + 2 개) 를 진입점 (Entry points) 으로 설정합니다.
- 진입점에서 BFS(너비 우선 탐색) 를 통해 연결된 모든 컴포넌트를 탐색하여 간접적인 인과 증거를 포함시킵니다.
- 오답 필터링: 그래프와 연결되지 않은 문서 (Distractors) 를 제거하여 노이즈를 줄입니다.
Topic-Wide Aggregation: 동일한 주제 내 질문들은 문서 집합이 중복되므로, 주제 단위로 문서를 통합하여 캐싱 (91% 히트율) 하고 비용을 87% 절감합니다.

Stage 2: LLM 기반 귀납적 추론사 (Reflective Prompting)

구조화된 프롬프트 (Structured Prompting):
- XML 형식을 사용하여 <analysis> (각 옵션에 대한 추론) 와 <answer> (최종 선택) 를 분리합니다.
- 분석 - 후 - 답변 (Analysis-before-answer) 방식을强制하여 LLM 이 사고 과정을 명시하도록 유도합니다.
GEPA 기반 프롬프트 최적화:
- GEPA (Reflective Prompt Evolution) 를 사용하여 자동화된 프롬프트 진화를 수행했습니다.
- 최적화된 프롬프트를 직접 배포하기보다, GEPA 가 발견한 휴리스틱 (예: 단일 단계 인과 추론, 명시적 인과 언어 우선순위) 을 최종 프롬프트 설계에 반영했습니다.
자기 일관성 (Self-Consistency):
- 온도 $\tau=1.0$ 에서 $k=3$ 개의 응답을 샘플링하고, 옵션별 다수결 (Majority Voting) 을 통해 최종 답을 도출합니다.

Stage 3: 사후 일관성 강제 (Post-Hoc Consistency Enforcement)

LLM 이 발생할 수 있는 논리적 오류를 보정하기 위해 8 가지 결정론적 휴리스틱을 적용합니다.
- 상호 배타성 (Mutual Exclusivity): "None of the others" 옵션이 선택될 경우 다른 옵션은 배제됩니다.
- 중복 옵션 일관성: 동일한 텍스트를 가진 옵션은 동일한 진리값을 가져야 합니다.
- 교차 질문 확인 (Cross-question Checks): 동일한 주제 내 형제 질문 (Sibling questions) 간의 논리적 모순을 해결합니다.
- 이 과정은 수렴할 때까지 (보통 2 회) 반복 적용됩니다.

3. 주요 기여 (Key Contributions)

성능 리더보드 1 위 달성: 개발 세트에서 0.95/1.00 의 정확도를 기록하여 최상위권을 차지했습니다.
포괄적인 모델 평가: 7 개 계열 (Family) 의 18 가지 모델 구성을 평가하여, 프론트라인 LLM 들의 귀납적 추론 성능 지형도를 파악했습니다.
심층 오류 분석 및 공통 편향 발견: 14 개 모델을 분석하여 귀납적 추론 실패의 세 가지 공통 귀납적 편향 (Shared Inductive Biases) 을 규명했습니다.
- 인과 사슬 불완전성 (Causal Chain Incompleteness): 다단계 인과 사슬 중 일부만 선택하고 나머지를 생략합니다.
- 근접 원인 선호 (Proximate Cause Preference): 가장 최근의 선행 사건을 선호하여 실제 원인 (Enabling conditions) 을 간과합니다.
- 주목도 편향 (Salience Bias): 드라마틱하거나 뉴스 가치가 높은 사건을 실제 원인으로 잘못 판단합니다.
- 이러한 편향들은 모델 계열을 초월하여 51% 의 원인 수 감소 (Under-selection) 를 유발하는 체계적인 실패 모드임을 확인했습니다.

4. 실험 결과 (Results)

성능:
- Claude Sonnet 4.5 Thinking 모델에 3 단계 파이프라인을 적용했을 때, 개발 세트에서 0.952의 점수를 기록했습니다.
- Post-hoc 휴리스틱이 가장 큰 기여를 했으며 (+5.6 pp), 그래프 기반 검색은 소형 모델 (Haiku 3.5) 에게 특히 큰 효과 (+9 pp) 를 보였습니다.
- 단일 모델의 성능을 넘어서는 Ensemble(모델 앙상블) 의 효과는 제한적이었으며, 휴리스틱 보정이 있는 단일 모델이 더 우수했습니다.
오류 분석:
- 14 개 모델 중 42 개의 질문에서 정확한 답을 찾지 못했습니다. 이 중 38 개는 다중 정답 누락 (Under-selection) 이 주된 원인이었습니다.
- 모델 간 일관성 (Fleiss' $\kappa$ ) 은 0.690 으로, 프론트라인 모델 계열 (Claude, Gemini, GPT) 간에는 높은 일관성을 보였으나, 다중 정답 문제에서는 성능 격차가 컸습니다.

5. 의의 및 결론 (Significance)

시스템적 한계 규명: LLM 의 귀납적 추론 실패가 특정 모델의 결함이 아니라, 인과 사슬 불완전성, 근접 원인 선호, 주목도 편향이라는 보편적인 편향에서 기인함을 증명했습니다.
실용적 접근: 복잡한 LLM 아키텍처 변경 없이, 검색 최적화 (RAG), 프롬프트 엔지니어링, 그리고 결정론적 후처리 (Post-hoc) 를 결합함으로써 상용 모델의 성능을 극대화할 수 있음을 보여주었습니다.
향후 방향: 단일 모델의 한계를 극복하기 위해 표적화된 앙상블 또는 멀티 에이전트 아키텍처가 필요함을 시사하며, 특히 다중 원인 (Multi-answer) 추론 능력 향상이 향후 연구의 핵심 과제로 제시되었습니다.

이 논문은 복잡한 인과 추론 과제에서 LLM 의 한계를 극복하기 위해 구조화된 검색, 최적화된 추론 프롬프트, 그리고 논리적 일관성 검증을 통합한 효과적인 프레임워크를 제시했다는 점에서 의의가 큽니다.

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning