Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 음모론 탐정단: AILS-NTUA 의 SemEval 2026 도전기

이 논문은 2026 년 'SemEval'이라는 AI 언어 분석 대회에서, 인공지능이 어떻게 '음모론 (Conspiracy Theory)'을 찾아내고, 그것이 진짜 믿는 것인지 아니면 그냥 '뉴스를 전하는 것'인지 구별할 수 있는지에 대한 이야기를 담고 있습니다.

한국어 번역과 함께, 복잡한 기술 용어를 친숙한 비유로 풀어보겠습니다.

1. 문제: AI 는 왜 헷갈려 할까요?

음모론은 매우 교묘합니다.

진짜 음모론자: "정부와 기업이 우리를 독살하고 있어요!" (진짜 믿고 주장함)
뉴스 기자: "일부 사람들은 정부가 독살한다고 주장합니다." (그냥 사실만 전달함)

기존의 AI 는 이 두 가지를 구분하지 못해, 기사가 쓴 "주장합니다"라는 문장만 보고 "아, 이 기사도 음모론을 믿는구나!"라고 잘못 판단하는 경우가 많았습니다. 이를 논문에서는 **'리포터의 함정 (Reporter Trap)'**이라고 불렀습니다.

2. 해결책: "혼자서 다 하기" 대신 "팀워크"

이 연구팀은 AI 를 혼자 일하게 하지 않고, **전문가들로 구성된 '팀 (에이전트)'**을 꾸렸습니다. 마치 법정의 배심원단이나 수사팀처럼요.

🕵️‍♀️ 단계 1: 증거 수집 (S1 - 마커 추출)

**"Dynamic Discriminative Chain-of-Thought (DD-CoT)"**라는 기법을 썼습니다.

비유: 단순히 "누가 무엇을 했나?"를 찾는 게 아니라, **"왜 이것이 '범인 (Actor)'이고 '피해자 (Victim)'가 아닌가?"**를 스스로 반박하며 생각하게 만든 것입니다.
예시: 문장이 "공중이 조작당했다"라고 하면, 문법상 '공중'이 주어지만, 의미상 '공중'은 피해자입니다. AI 가 "아, 공중은 범인이 아니라 피해자야!"라고 스스로 논리적으로 반박하며 정확한 위치를 찾아냅니다.

⚖️ 단계 2: 최종 판결 (S2 - 음모론 여부 판단)

여기서는 **'반향실 (Echo Chamber) 을 깨는 회의실'**을 만들었습니다.

비유: 한 사람이 판단하면 편견이 생기기 쉽습니다. 그래서 4 명의 서로 다른 성격의 배심원을 소집했습니다.
1. 검사 (Prosecutor): "이 글에 음모론적인 의도가 숨어있지 않나?"라고 공격적으로 찾아봅니다.
2. 변호사 (Defense): "아니야, 이건 그냥 뉴스 전달일 뿐이야. 증거가 부족해!"라고 반박합니다.
3. 문자주의자 (Literalist): "글자 그대로만 봐. '주장했다'라고 썼으면 믿는 게 아니야."라고 엄격하게 따집니다.
4. 심리 분석가 (Profiler): "글의 어조가 너무 감정적이거나, 특정 은어 (예: '새끼들', '세계정부') 를 썼네?"라고 분석합니다.

이 4 명이 서로의 말을 듣지 않고 독립적으로 의견을 낸 뒤, **판사 (Calibrated Judge)**가 이들을 종합하여 최종 판결을 내립니다. 만약 의견이 엇갈리면, 판사는 "의심스러우면 무죄 (음모론 아님)"로 판단하는 보수적인 원칙을 따릅니다.

3. 성과: 얼마나 잘했나요?

이 팀의 방식은 기존 방식보다 훨씬 뛰어났습니다.

S1 (증거 찾기): 기존 점수 (0.12) 를 **2 배 (0.24)**로 끌어올렸습니다.
S2 (판단하기): 기존 점수 (0.53) 를 **약 1.5 배 (0.79)**로 높였습니다.

가장 큰 성과는 **'리포터의 함정'**을 피했다는 점입니다. 기사가 음모론을 전할 때, AI 가 "아, 이 기사는 음모론을 믿는 게 아니야"라고 정확히 구분해냈습니다.

4. 핵심 요약 (한 줄 정리)

"AI 가 혼자서 모든 걸 판단하려다 보니 헷갈렸는데, 이 연구팀은 AI 에게 '검사, 변호사, 판사' 역할을 맡겨 서로 토론하게 함으로써, 진짜 믿는 음모론과 그냥 전하는 뉴스 구분을 완벽하게 해냈습니다."

5. 한계점 (현실적인 이야기)

물론 완벽하지는 않습니다.

풍자와 아이러니: "아, 맞아. 지구는 평평하고, 새들은 가짜야!"라고 **농담 (풍자)**으로 쓴 글은 AI 가 가끔 진짜로 믿는 줄 알고 오해하기도 합니다. (이건 인간도 헷갈리는 '포의 법칙' 영역입니다.)
맥락 부족: 글자만 보고 판단하다 보니, 글쓴이의 과거 글이나 글이 올라온 커뮤니티 분위기 같은 '맥락'을 모르면 헷갈릴 수 있습니다.

결론

이 연구는 AI 가 단순히 "단어를 찾아내는 것"을 넘어, 문장의 뉘앙스와 논리를 깊이 있게 이해해야만 복잡한 사회적 문제를 해결할 수 있음을 보여줍니다. 마치 수사관이 단서만 보는 게 아니라, 범인의 심리와 상황을 종합적으로 분석해야 범죄를 해결하는 것과 같습니다.

과목	메트릭	베이스라인 (Zero-shot)	제안 시스템 (Agentic)	향상폭
S1 (마커 추출)	Macro F1 (Dev)	0.12	0.24	+100%
S2 (지식 탐지)	Macro F1 (Dev)	0.53	0.79	+49%

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

🕵️‍♂️ 음모론 탐정단: AILS-NTUA 의 SemEval 2026 도전기

1. 문제: AI 는 왜 헷갈려 할까요?

2. 해결책: "혼자서 다 하기" 대신 "팀워크"

🕵️‍♀️ 단계 1: 증거 수집 (S1 - 마커 추출)

⚖️ 단계 2: 최종 판결 (S2 - 음모론 여부 판단)

3. 성과: 얼마나 잘했나요?

4. 핵심 요약 (한 줄 정리)

5. 한계점 (현실적인 이야기)

결론

AILS-NTUA at SemEval-2026 Task 10: 심리언어학적 마커 추출 및 음모론 지지 탐지를 위한 에이전트 LLM 파이프라인 기술 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 S1: 마커 추출을 위한 DD-CoT (Dynamic Discriminative Chain-of-Thought)

2.2 S2: '반-에코 챔버 (Anti-Echo Chamber)' 아키텍처

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

AILS-NTUA at SemEval-2026 Task 10: Agentic LLMs for Psycholinguistic Marker Extraction and Conspiracy Endorsement Detection

🕵️‍♂️ 음모론 탐정단: AILS-NTUA 의 SemEval 2026 도전기

1. 문제: AI 는 왜 헷갈려 할까요?

2. 해결책: "혼자서 다 하기" 대신 "팀워크"

🕵️‍♀️ 단계 1: 증거 수집 (S1 - 마커 추출)

⚖️ 단계 2: 최종 판결 (S2 - 음모론 여부 판단)

3. 성과: 얼마나 잘했나요?

4. 핵심 요약 (한 줄 정리)

5. 한계점 (현실적인 이야기)

결론

AILS-NTUA at SemEval-2026 Task 10: 심리언어학적 마커 추출 및 음모론 지지 탐지를 위한 에이전트 LLM 파이프라인 기술 요약

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

2.1 S1: 마커 추출을 위한 DD-CoT (Dynamic Discriminative Chain-of-Thought)

2.2 S2: '반-에코 챔버 (Anti-Echo Chamber)' 아키텍처

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models