Each language version is independently generated for its own context, not a direct translation.

🎭 1. 문제: "무엇이 나쁜지"만 알려주는 기계의 한계

과거의 악성 밈 탐지 시스템들은 마치 **"불법 주정차 단속 카메라"**와 같았습니다.

기존 방식: "이 사진은 나쁜가? (Yes/No)"라고만 물어보고 답을 냅니다.
한계: 만약 카메라가 "나쁜 사진입니다!"라고만 외치고, **"왜 나쁜지 **(누구를 비하했는지, 어떤 언어를 썼는지)에 대해서는 아무 말도 안 한다면?
- 실제 사람 심사관 (모더레이터) 은 "아, 이 사진이 왜 나쁜지 설명해 줘야 내가 처리할 수 있는데!"라고 답답해합니다.
- 또한, 최근 AI 가 "생각한 뒤 (Chain-of-Thought) 판단하자"는 방식을 시도했지만, 오히려 단순히 정답만 외운 학생보다 성적이 더 떨어지는 이상한 현상이 발생했습니다.

🧠 2. 원인 분석: 왜 AI 는 '생각'을 못 할까?

연구진은 두 가지 큰 문제를 발견했습니다.

규칙을 모른 채 추측만 함: AI 는 "이 밈이 왜 나쁜지"에 대한 **구체적인 규칙 **(예: 특정 집단을 비하하는가?)을 먼저 생각하지 않고, 막연히 "나쁜 것 같아"라고만 말합니다.
성적표 (보상) 가 너무 단순함: AI 를 가르칠 때, "정답이면 점수 +1, 오답이면 점수 -1"만 줬습니다. 하지만 인간이 논리력을 기르려면 **"어떤 이유로 틀렸는지"**에 대한 상세한 피드백이 필요합니다.

🏫 3. 해결책: ExPO-HM (인간 심사관 교육법 모방)

이 논문이 제안한 ExPO-HM은 마치 유능한 콘텐츠 심사관을 양성하는 교육 과정을 AI 에게 적용한 것입니다. 세 단계로 나뉩니다.

1 단계: 규칙책 (Policy Manual) 공부하기 (SFT Warmup)

비유: 신입 심사관에게 "이런 건 나쁘고, 저런 건 괜찮다"는 매뉴얼을 먼저 외우게 합니다.
방법: AI 에게 단순히 밈을 보여주고 "나쁨/아님"을 외우게 하는 게 아니라, **"어떤 공격 유형 **(인종차별, 성차별 등)을 먼저 학습시킵니다. 이렇게 하면 AI 가 판단의 기준을 명확히 세울 수 있습니다.

2 단계: 쉬운 문제부터 어려운 문제까지 (Curriculum Learning)

비유: 수학 문제를 풀 때, 먼저 **개념 문제 **(세부 분류)를 풀고, 그다음 **종합 문제 **(단순 나쁨/아님)를 푸는 방식입니다.
방법: AI 가 먼저 "이 밈이 어떤 공격 유형인가?"를 생각하게 한 뒤, 그다음에 "그럼 이 밈은 나쁜가?"라고 판단하게 합니다. 순서를 바꾸니 AI 의 논리력이 훨씬 좋아졌습니다.

3 단계: 확신과 정답의 균형 (CDE Reward)

비유: 시험에서 "정답을 확실히 알고 맞췄으면 (보상), "틀렸는데도 확신만 있으면 (벌점)을 주는 방식입니다.
방법: 기존에는 정답만 맞췄을 때 점수를 줬지만, ExPO-HM 은 **"내 설명이 얼마나 논리적이고 확실한가?"**를 평가합니다.
- "이건 나쁜 거야!"라고 확신하며 맞췄다면 → 대박 점수
- "이건 나쁜 거야!"라고 확신하며 틀렸다면 → 엄중한 벌점
- "잘 모르겠는데..."라고 헷갈리면서 틀렸다면 → 약간의 용서
- 이 방식을 통해 AI 는 불필요한 확신을 버리고, 논리적으로 확실한 경우에만 확신하게 됩니다.

🏆 4. 결과: 압도적인 승리

이 새로운 방법 (ExPO-HM) 을 적용한 결과:

정확도: 단순히 나쁨/아님만 판단하는 기존 최고 기술보다 15~17% 더 정확해졌습니다.
설명력: AI 가 내린 판단에 대한 **이유 **(설명)가 훨씬 논리적이고 인간 심사관과 비슷해졌습니다.
신뢰도: AI 가 "내가 확신한다"고 말할 때, 실제로 맞을 확률이 훨씬 높아졌습니다.

💡 5. 결론: 왜 이것이 중요한가?

이 연구는 AI 에게 **"정답만 알려주는 것"이 아니라 "왜 그런지 생각하게 하는 것"**이 중요하다는 것을 보여줍니다.
마치 학생에게 정답지만 주는 게 아니라, 해설지를 보고 논리력을 기르게 하는 것과 같습니다.

ExPO-HM 은 이제부터 인터넷상의 악성 밈을 단순히 "삭제"하는 것을 넘어, **"왜 삭제해야 하는지 설명"**할 수 있는 시스템을 만들어, 더 안전하고 건강한 인터넷 환경을 만드는 데 기여할 것입니다.

한 줄 요약:

"AI 에게 '나쁨/아님'만 외우게 하지 말고, **규칙책 **(매뉴얼)을 가르쳐서 논리적으로 설명할 수 있는 똑똑한 심사관으로 키우자!"

Each language version is independently generated for its own context, not a direct translation.

ExPO-HM: 혐오 밈 탐지를 위한 '설명 후 탐지 (Explain-then-Detect)' 학습 방법론 기술 요약

본 논문은 ICLR 2026 에 제출된 것으로, 온라인 혐오 밈 (Hateful Memes) 의 자동 탐지 시스템의 한계를 극복하고 인간 콘텐츠 심사관의 판단 방식을 모방한 새로운 프레임워크 ExPO-HM을 제안합니다.

1. 문제 정의 (Problem Statement)

기존의 혐오 밈 탐지 연구는 대부분 '직접 탐지 (Direct Detection)' 방식에 의존하여 밈이 혐오적인지 아닌지에 대한 이진 분류 (Binary Classification) 결과만 제공합니다. 그러나 실제 콘텐츠 심사 과정에서는 단순한 '예/아니오' 판단보다 어떤 유형의 공격이 발생했는지, 어떤 보호 대상이 표적이 되었는지, 그리고 왜 그 밈이 해로운지에 대한 설명이 필수적입니다.

최근 '설명 후 탐지 (Explain-then-Detect)' 접근법 (Chain-of-Thought 프롬핑팅, LMM 에이전트 등) 이 시도되었으나, 다음과 같은 심각한 문제점이 발견되었습니다:

성능 저하: 설명을 생성하는 과정에서 모델의 이진 분류 정확도가 오히려 하락합니다.
부실한 추론: 모델이 중요한 정책 관련 단서 (표적, 공격 유형) 를 놓치거나, 잘못된 설명을 바탕으로 확신에 찬 오답을 내놓는 경우가 많습니다.
보상 신호의 한계: 기존 강화학습 (GRPO 등) 에서 사용하는 단순한 이진 (정답/오답) 보상 신호는 모델이 고품질의 논리적 추론을 학습하도록 유도하기에 부족합니다.

2. 방법론 (Methodology: ExPO-HM)

저자들은 인간 심사관이 매뉴얼을 학습하고 점진적으로 난이도가 높은 과제를 수행하는 방식을 모방하여 **ExPO-HM (Explain-then-Detect Policy Optimization for Hateful Memes)**을 제안합니다. 이 프레임워크는 크게 세 가지 핵심 구성 요소로 이루어집니다.

2.1 정책 매뉴얼 기반 SFT 워밍업 (SFT-PM Warmup)

기존의 단순 라벨 학습 대신, 데이터셋의 상세한 주석 가이드라인을 **구조화된 정책 매뉴얼 (Structured Policy Manual)**로 변환합니다.

모델은 이 매뉴얼을 입력으로 받아 각 밈에 대해 보호 대상 (인종, 종교 등) 과 공격 유형 (비인간화, 모욕 등) 을 식별하는 세분화된 분류 (Fine-grained Classification) 를 학습합니다.
이는 인간 심사관이 가이드라인을 숙지하는 과정과 유사하며, 모델이 추론을 위한 정책 지식을 먼저 습득하도록 돕습니다.

2.2 커리큘럼 학습을 통한 GRPO (GRPO with Curriculum Learning)

Supervised Fine-Tuning (SFT) 이후, 그룹 상대 정책 최적화 (GRPO) 를 적용하되 학습 순서를 체계화합니다.

1 단계: 세분화된 분류 (공격 유형, 표적 등) 데이터만 사용하여 모델이 다양한 추론 경로를 탐색하도록 유도합니다.
2 단계: 이진 분류 (혐오/비혐오) 데이터를 50:50 비율로 혼합하여 학습합니다.
이 커리큘럼 학습 전략은 모델이 단순한 이진 판단을 하기 전에 먼저 정책과 논리를 이해하도록 강제하여 추론의 질을 높입니다.

2.3 조건부 결정 엔트로피 (Conditional Decision Entropy, CDE) 보상

추론의 질을 측정하고 보상을 주는 새로운 지표인 CDE를 도입합니다.

정의: 모델이 생성한 설명 ( $e$ ) 을 조건으로 했을 때, 최종 결정 ( $d$ ) 의 불확실성 (엔트로피) 을 측정합니다.
원리:
- 올바른 추론: 설명이 명확하고 결정이 확신에 차야 하므로 엔트로피가 낮아야 합니다.
- 잘못된 추론: 설명이 잘못되었거나 결정이 불확실할 때 높은 엔트로피를 가집니다.
보상 함수: CDE 를 기반으로 한 보상 신호 ( $r_{CDE}$ $r_{C D E}$ ) 를 GRPO 에 추가합니다.
- 확신 있는 정답: 높은 보상
- 확신 있는 오답: 강력한 페널티
- 불확실한 오답: 낮은 페널티 또는 허용
이를 통해 모델은 "정답을 확신할 때만 확신 있게 판단하고, 모호할 때는 불확실성을 인정하는" 잘 교정된 (Calibrated) 의사결정 능력을 갖추게 됩니다.

3. 주요 기여 (Key Contributions)

패러다임 전환: 직접 탐지 (Direct Detection) 보다 성능이 우수한 최초의 '설명 후 탐지' 혐오 밈 탐지 시스템을 제안했습니다.
방법론적 혁신: 인간 심사관 훈련 과정을 모방한 SFT-PM 워밍업, 커리큘럼 학습이 적용된 GRPO, 그리고 CDE 기반 보상 최적화를 결합했습니다.
종합적 평가: 이진 분류뿐만 아니라 세분화된 분류 (공격 유형, 표적) 와 LLM 을 심사관으로 활용한 추론 품질 평가를 포함한 포괄적인 벤치마크를 구축했습니다.
성능 기록: 여러 벤치마크에서 기존 최첨단 시스템 (SOTA) 을 능가하며, 특히 추론의 질과 분류 정확도를 동시에 개선했습니다.

4. 실험 결과 (Results)

HatefulMemes, MAMI, PrideMM 등 3 개의 주요 데이터셋에서 Qwen2.5-VL 모델 (3B, 7B) 을 기반으로 실험한 결과는 다음과 같습니다.

이진 분류 성능: ExPO-HM 은 기존 GRPO 및 DPO 베이스라인 대비 최대 15% (GRPO 대비) 및 17% (DPO 대비) 의 F1 점수 향상을 기록했습니다.
- 예: HatefulMemes 데이터셋에서 Qwen2.5-VL-7B 기준 ExPO-HM 은 81.1 F1 을 기록하여 기존 최강 모델 (RA-HMD, 80.2) 을 상회했습니다.
세분화된 분류: 공격 유형 및 표적 그룹 식별 성능에서 기존 방법론 대비 12~14% 이상의 F1 점수 향상을 보였습니다.
추론 품질:
- LLM-as-a-Judge: 인간이 작성한 설명과의 일치도를 평가하는 점수에서 GRPO(5.2) 대비 ExPO-HM(6.2) 으로 크게 향상되었습니다.
- CDE 지표: ExPO-HM 은 올바른 예측 시 매우 낮은 엔트로피 (높은 확신) 를, 잘못된 예측 시 상대적으로 높은 엔트로피를 보여 명확한 의사결정 분리를 달성했습니다.
- 인간 평가: 인간 평가자로부터의 일관성 (Coherence) 은 100%, 유용성 (Helpfulness) 점수에서도 GRPO 대비 유의미한 개선을 보였습니다.

5. 의의 및 결론 (Significance)

ExPO-HM 은 단순한 이진 경보 시스템을 넘어, 해석 가능하고 실행 가능한 (Actionable) 설명을 제공하는 자동화된 콘텐츠 심사 시스템의 새로운 표준을 제시합니다.

실무적 가치: 콘텐츠 심사관의 업무 부담을 줄이고, 오류를 줄이며, 사용자가 왜 해당 콘텐츠가 차단되었는지 이해할 수 있도록 돕습니다.
기술적 통찰: 단순한 CoT 프롬프팅이나 강화학습만으로는 추론 능력을 향상시키기 어렵다는 점을 지적하고, **정책 기반 지식 학습 (SFT-PM)**과 **정교한 보상 설계 (CDE)**가 결합되어야만 고품질 추론과 높은 정확도를 동시에 달성할 수 있음을 증명했습니다.

이 연구는 혐오 표현 탐지 분야에서 '왜 (Why)'라는 질문에 답하는 설명 중심의 AI 시스템 개발이 필수적임을 강조하며, 향후 신뢰할 수 있는 AI 콘텐츠 관리의 방향성을 제시합니다.

ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection