Each language version is independently generated for its own context, not a direct translation.
🕵️♂️ "사건의 진짜 이유를 찾아라": AILS-NTUA 팀의 우승 비결
안녕하세요! 이 논문은 SemEval 2026이라는 AI 경진대회에서 1 등을 한 팀 (AILS-NTUA) 의 이야기입니다. 이 대회의 미션은 아주 흥미롭습니다. 바로 **"어떤 사건이 일어났을 때, 그 진짜 원인 (이유) 을 추론하는 것"**입니다.
예를 들어, "어느 날 갑자기 서울의 지하철이 멈췄다"는 사건이 발생했을 때, AI 는 왜 멈췄는지 (전력 고장? 테러? 시스템 오류?) 를 문맥을 보고 추리해야 합니다. 이를 **'귀납적 추론 (Abductive Reasoning)'**이라고 하는데, AI 에게는 꽤 까다로운 시험입니다.
이 팀이 어떻게 95% 라는 압도적인 점수로 1 등을 했는지, 쉬운 비유로 설명해 드릴게요.
🏗️ 1 단계: '수색대'를 보내는 것 (그래프 기반 검색)
AI 가 사건을 추리할 때 가장 먼저 하는 실수는 **관련 없는 정보 (산만한 정보)**까지 다 읽으려다 지치는 것입니다. 마치 수사관이 사건 현장에 온 모든 사람의 말 (관련자, 목격자, 심지어 지나가던 개까지) 을 다 듣고 결론을 내리려다 혼란에 빠지는 것과 비슷하죠.
이 팀은 **'그래프 기반 검색'**이라는 기술을 썼습니다.
- 비유: 사건 관련 문서들을 거대한 **'연결된 그물'**로 만들었습니다.
- 작동 방식: 질문이 들어오면, 가장 관련 있는 문서 2~3 개를 먼저 찾고, 그 문서들과 '친구 관계' (유사성) 가 있는 다른 문서들도 따라가서 모았습니다.
- 효과: 이렇게 하면 사건과 직접적인 연관이 없는 '산만한 정보 (Distractor)'는 걸러내고, 진짜 핵심 증거들만 모아서 AI 에게 줍니다. 마치 수사관이 불필요한 소문은 무시하고, 사건과 직접 연결된 단서들만 모아 수사하는 것과 같습니다.
🧠 2 단계: '생각하는 AI'에게 질문하기 (반성적 프롬프트)
문서만 모인다고 해서 AI 가 바로 정답을 내는 건 아닙니다. AI 는 때로는 무작정 답을 말하려 하거나, 논리가 부족할 때가 있습니다.
이 팀은 AI 에게 **"답을 말하기 전에, 먼저 생각 과정을 써보라"**고 시켰습니다.
- 비유: 시험지를 받을 때, 정답만 적는 게 아니라 **"왜 이 답을 고르게 되었는지"**를 먼저 적게 하는 것입니다.
- 작동 방식: AI 가 각 보기를 분석하며 "A 는 근거가 부족해, B 는 문맥상 맞는데..."라고 스스로에게 말하게 합니다.
- 혁신: 이 팀은 AI 가 스스로 "어? 내가 방금 실수했네?"라고 깨닫고 질문을 다시 고치게 만드는 '반성 (Reflection)' 기술을 썼습니다. 마치 학생이 문제를 풀고 나서 "아, 내가 이 부분을 잘못 이해했구나"라고 스스로를 점검하는 것과 같습니다.
🛡️ 3 단계: '논리 경찰'이 최종 점검 (일관성 검증)
AI 가 아무리 똑똑해도 가끔은 **"모순된 말"**을 합니다. 예를 들어, "A 가 원인이다"라고 하면서 동시에 "A 는 원인이 아니다"라고 하거나, "아무것도 아니다"라고 하면서 다른 것도 고르는 식이죠.
이 팀은 마지막 단계에서 **'논리 경찰 (Heuristics)'**을 투입했습니다.
- 비유: AI 가 쓴 답안을 받아서, **"이건 말이 안 되잖아!"**라고 지적해주는 교정 선생님이 있는 셈입니다.
- 작동 방식:
- "A 와 B 는 같은 내용인데, 왜 하나만 골랐지? 둘 다 고르거나 하나도 고르지 말아야지!"
- "아무것도 원인이 아니라고 했는데, 왜 C 를 골랐어? 모순이야!"
- "이 사건과 관련된 다른 질문에서 A 를 골랐는데, 여기서는 왜 안 골랐어?"
- 효과: 이런 사소한 실수들을 자동으로 수정해주니, 점수가 확 올라갔습니다.
🔍 AI 가 자주 하는 실수 (3 가지 편향)
이 팀은 14 개의 다른 AI 모델을 분석하며, AI 들이 공통적으로 저지르는 3 가지 실수를 발견했습니다.
- 연결 고리 끊어짐 (Causal Chain Incompleteness):
- 비유: "비가 와서 땅이 젖었다"는 사실을 알면서, "구름이 빗물을 머금었다"는 시작 부분을 잊어버리는 것입니다. AI 는 중간 단계만 보고 전체 흐름을 놓칩니다.
- 가장 최근 원인 선호 (Proximate Cause Preference):
- 비유: "집이 불탔다"는 사건에서, "화재 경보가 울렸다"는 직전 사건을 원인으로 여기고, "전기 배선이 노후화되어 있었다"는 진짜 근본 원인을 무시합니다. AI 는 시간적으로 가장 가까운 것을 원인으로 착각합니다.
- 눈에 띄는 것 선호 (Salience Bias):
- 비유: "폭발 사고가 났다"는 사건에서, "사람들이 다쳤다"는 드라마틱한 결과를 원인으로 생각하지, "화약고 관리 소홀"이라는 조용한 원인을 놓칩니다. AI 는 소란스러운 것만 보고 진짜 이유를 놓칩니다.
🏆 결론: 왜 이 팀이 1 등했나?
이 팀은 단순히 "더 똑똑한 AI"를 쓴 게 아닙니다. 그들은 AI 가 약한 점을 보완하는 시스템을 만들었습니다.
- 수색대가 불필요한 정보를 걸러내고 (검색),
- 생각하는 AI가 논리적으로 추론하게 하고 (프롬프트),
- 논리 경찰이 마지막에 실수를 잡아줍니다 (검증).
이 3 단계 시스템이 완벽하게 작동하여, 다른 어떤 AI 보다도 사건과 그 원인을 정확하게 연결 지을 수 있었습니다. 마치 최고의 탐정이 수사관, 분석가, 그리고 검사를 모두 한 명에 합친 것처럼 말이죠!
이 연구는 AI 가 단순히 정보를 외우는 것을 넘어, 진짜 이유를 추론하는 능력을 키우는 데 중요한 이정표가 되었습니다.