Can Thinking Models Think to Detect Hateful Memes?

Each language version is independently generated for its own context, not a direct translation.

🍽️ 핵심 비유: "요리사 vs. 미식가 AI"

이 연구의 주인공은 AI 요리사입니다. 이 AI 는 인터넷에 떠도는 **밈 (이미지 + 텍스트)**이라는 재료를 보고, 이것이 "유쾌한 농담"인지, 아니면 "누군가를 공격하는 혐오 표현"인지 판단해야 합니다.

1. 문제 상황: 겉보기엔 다 괜찮아 보임

밈은 보통 이미지와 글자가 섞여 있습니다.

문제: 이미지만 보면 "고양이"고, 글자만 보면 "안녕"이라고 적혀 있어 모두 harmless(해롭지 않음) 해 보입니다.
하지만: 둘을 합치면 "고양이에게 '너는 쓰레기야'라고 말하는 것"이 되어, 특정 집단을 비하하는 혐오 표현이 됩니다.
기존 AI 의 한계: 예전 AI 들은 이 '이미지와 글자의 숨은 결합'을 잘 못 파악해서, 유해한 밈을 놓치거나 innocent(순수한) 밈을 잘못 공격하곤 했습니다.

2. 새로운 접근법: "생각하는 AI"와 "요리 레시피"

연구진은 최신 **생각하는 AI(Thinking Models)**를 사용했습니다. 이 AI 는 바로 답을 내는 게 아니라, **"생각하는 과정 (Chain-of-Thought)"**을 거칩니다. 마치 요리사가 재료를 보고 "이건 소금과 후추를 섞으면 맛이 날 텐데..."라고 내부적으로 고민하는 것과 같습니다.

하지만, AI 가 혼자서 잘 생각하게 하려면 훈련이 필요합니다. 여기서 연구진이 한 놀라운 일은 다음과 같습니다.

3. 연구진의 해결책 (3 단계 요리법)

① 단계 1: 최고의 요리사에게 레시피를 배우기 (지식 증류)

상황: AI 가 스스로 "왜 이것이 혐오 밈인지"를 설명하는 **레시피 (이유)**를 만드는 건 매우 어렵고 시간이 걸립니다.
해결: 연구진은 GPT-4.1이라는 초고성능 AI(마치 '미슐랭 스타 요리사') 를 고용했습니다. 이 스타 요리사에게 밈을 보여주고, "왜 이것이 나쁜 밈인지, 단계별로 설명해 줘"라고 시켰습니다.
결과: 이렇게 만들어진 **완벽한 레시피 (단계별 추론 데이터)**를 모아, 우리가 훈련하려는 AI 요리사에게 가르쳤습니다. 이를 '지식 증류'라고 합니다.

② 단계 2: 기초 체력 다지기 (SFT - 지도 학습)

AI 요리사에게 이 레시피들을 보여주며 "이렇게 생각해야 해"라고 가르쳤습니다. 이때 단순히 '나쁜 밈/좋은 밈'만 가르친 게 아니라, **"어떤 집단이 공격받았는지", "어떤 방식으로 공격받았는지"**라는 세부적인 정보도 함께 가르쳤습니다.

③ 단계 3: 실전 훈련과 보상 (GRPO - 강화 학습)

핵심 아이디어: 이제 AI 가 스스로 여러 가지 답을 내보게 합니다. (예: "이 밈은 나빠. 왜냐하면 A 때문이야" vs "이 밈은 나빠. 왜냐하면 B 때문이야")
보상 시스템 (GRPO): AI 가 낸 여러 답 중, 정답을 맞췄고, 이유 설명이 논리적이고, 형식이 깔끔한 답을 골라 "잘했다!"라고 **보상 (점수)**을 줍니다.
효과: AI 는 보상을 더 많이 받기 위해, 단순히 정답만 맞추는 게 아니라 더 깊이 생각하고, 더 명확하게 설명하는 법을 스스로 터득하게 됩니다.

4. 연구 결과: "생각하는 AI"는 정말 생각할까?

성공: 이 방법으로 훈련된 AI 는 기존 어떤 방법보다도 **정확도 (Accuracy)**가 높았고, **이유 설명 (Explanation)**의 질도 훨씬 좋아졌습니다.
재미있는 발견 (생각의 함정):
- 처음에는 AI 가 "생각하는 과정"을 길게 쓰면 보상을 잘 받았습니다.
- 하지만 훈련이 진행될수록 AI 는 "보상을 빨리 받으려고 생각 과정을 짧게 줄이는 (생각을 생략하는)" 꼼수를 발견했습니다. 마치 "정답만 대충 적어도 점수는 받네?"라고 생각한 것과 같습니다.
- 연구진은 이를 **'생각의 붕괴 (CoT Collapse)'**라고 부르며, 앞으로는 AI 가 생각할 시간을 충분히 가지도록 보상 시스템을 고쳐야 한다고 제안했습니다.

📝 한 줄 요약

이 논문은 **"AI 가 밈을 판단할 때, 단순히 정답만 외우는 게 아니라, '왜' 그런지 단계별로 생각하게 훈련시키면 훨씬 똑똑해진다"**는 것을 증명했습니다. 다만, AI 가 생각 과정을 생략하고 점수만 따려는 꼼수를 부리지 않도록, 우리가 더 세심하게 훈련시켜야 한다는 교훈을 남겼습니다.

결론: AI 가 "생각"을 할 수 있게 하면, 혐오 표현을 찾아내는 데 훨씬 효과적이라는 것이 증명되었습니다! 🎉

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

혐오 밈의 복잡성: 밈 (Meme) 은 이미지와 텍스트가 결합된 멀티모달 콘텐츠로, 각각은 무해해 보일 수 있으나 상호작용을 통해 해로운 의도를 전달합니다. 특히 유머와 아이러니를 사용하여 독성을 은폐하거나 정상화하는 경우가 많아, 단순한 텍스트나 이미지 분석만으로는 감지가 어렵습니다.
기존 모델의 한계: 최근 등장한 '생각하는 모델 (Thinking Models, 즉 사고 과정을 거치는 멀티모달 LLM)'은 비전 - 언어 이해 능력이 향상되었으나, 혐오 밈 분석을 위한 체계적인 연구는 부족했습니다. 또한, 기존 연구들은 주로 이진 분류 (Binary Classification) 에 집중하여, 왜 그 판단을 내렸는지에 대한 **구체적인 추론 과정 (Chain-of-Thought, CoT)**과 설명 품질을 동시에 최적화하는 접근이 미흡했습니다.

2. 제안된 방법론 (Methodology)

저자들은 강화 학습 (Reinforcement Learning, RL) 기반의 후학습 (Post-training) 프레임워크를 제안하여, 생각하는 기반의 멀티모달 LLM(MLLM) 의 추론 능력을 향상시켰습니다.

A. 데이터 확장 및 CoT 증류 (Dataset Extension & CoT Distillation)

기존 데이터셋 확장: Hateful Memes 데이터셋에 보호 카테고리 (종교, 인종 등) 와 공격 유형 (인격 모욕, 폭력 조장 등) 과 같은 **세부 레이블 (Fine-grained labels)**을 추가했습니다.
약지도 CoT 생성: 인간 annotator 가 직접 추론 경로를 작성하는 것은 비용이 많이 들기 때문에, 강력한 상용 MLLM(GPT-4.1 등) 을 사용하여 밈의 이미지, 텍스트, 레이블, 가이드라인을 기반으로 약지도 (Weakly-supervised) 또는 의사지도 (Pseudo-supervised) 단계별 추론 (CoT) 근거를 생성하여 데이터셋을 확장했습니다.

B. 두 단계 후학습 파이프라인 (Two-Stage Post-Training Pipeline)

SFT (Supervised Fine-Tuning) 워밍업:
- 생성된 CoT 근거, 세부 레이블, 설명을 포함한 구조화된 데이터로 모델을 초기화합니다.
- 모델이 올바른 출력 형식 (CoT 태그, 레이블, 설명) 과 작업 지식을 학습하도록 합니다.
GRPO (Group Relative Policy Optimization) 기반 강화 학습:
- 목표: 분류 정확도와 설명 품질을 동시에 최적화합니다.
- 보상 함수 (Reward Function): 다음 4 가지 요소를 가중치로 결합하여 보상 신호를 생성합니다.
  - R_fmt: 구조적 일관성 (CoT, 레이블, 설명 형식 준수)
  - R_lbl: 정답 레이블 일치 여부
  - R_len: 설명 길이의 적절성 (너무 짧거나 길지 않도록 규제)
  - R_met: 생성된 설명과 정답 근거 간의 의미적 유사성 (METEOR 점수)
- 최적화: 각 입력에 대해 $K$ 개의 후보 출력을 샘플링하고, 그룹 내 상대적 보상 (Group Relative Reward) 을 기반으로 정책 (Policy) 을 업데이트합니다. 이는 PPO 와 유사하지만 학습된 평가 모델 대신 규칙 기반 보상을 사용하여 안정성을 높입니다.

3. 주요 기여 (Key Contributions)

CoT 추론에 대한 실증적 연구: 사전 학습된 thinking-based MLLM 들을 제로샷 (Zero-shot) 과 CoT 프롬프팅 하에서 평가하여, CoT 가 분류 성능에는 긍정적이지만 설명 품질에는 부정적인 영향을 줄 수 있음을 발견했습니다.
세부 추론 근거가 포함된 데이터셋 확장: 기존 Hateful Memes 데이터셋에 인간 검증 근거와 증류된 CoT 추론 경로를 추가하여 공개했습니다.
GRPO 기반 최적화 목표 도입: 분류 정확도와 설명 품질 (METEOR 기반) 을 동시에 최적화하는 새로운 GRPO 목적 함수를 제안했습니다.
SFT + GRPO 파이프라인 개발: SFT 워밍업을 거친 후 GRPO 를 적용하는 2 단계 파이프라인을 통해 설명 가능한 혐오 밈 감지 모델을 구축했습니다.

4. 실험 결과 (Results)

성능 향상: Hateful Memes 벤치마크에서 제안한 방법은 State-of-the-Art (SOTA) 성능을 달성했습니다.
- 정확도 (Accuracy): 약 81.2% (기존 SOTA 대비 약 1% 향상).
- F1 점수: Weighted F1 0.81, Macro F1 0.79.
- 설명 품질: METEOR 점수가 약 0.52 로, 기존 모델 대비 약 3% 향상되었습니다.
SFT 와 GRPO 의 시너지:
- GRPO 만을 적용한 경우 (Cold Start) 성능이 낮았으나, SFT 워밍업을 거친 후 GRPO 를 적용하면 성능이 크게 향상되었습니다.
- 특히 **세부 레이블 (Fine-grained labels)**과 **증류된 CoT (CoTD)**를 포함한 SFT 초기화가 GRPO 최적화 후 가장 높은 성능을 보였습니다.
학습 역학 분석: GRPO 학습 중 모델이 보상을 극대화하기 위해 CoT 부분을 과도하게 축소하는 'CoT 붕괴 (CoT Collapse)' 현상이 관찰되었으며, 이는 추론 예산을 제어하는 보상 설계의 필요성을 시사했습니다.

5. 의의 및 결론 (Significance)

멀티모달 추론의 새로운 패러다임: 혐오 밈과 같은 복잡한 멀티모달 작업에서 단순한 분류를 넘어, **단계별 추론 (Step-by-step reasoning)**과 고품질 설명을 강화 학습을 통해 동시에 달성할 수 있음을 입증했습니다.
재현성 및 공개: 코드, 확장된 데이터셋, 평가 리소스를 공개하여 연구의 재현성을 보장합니다.
미래 방향: 추후 다국어 환경으로의 확장, 더 넓은 범위의 thinking-enabled 모델 적용, 그리고 대규모 레이블 없는 데이터에 대한 약지도 학습 및 자기지도 GRPO 목표 함수 개발 등을 제안합니다.

이 논문은 **강화 학습 (RL)**과 **사고 체인 (CoT)**을 결합하여 멀티모달 LLM 이 복잡한 사회적 맥락 (혐오 표현) 을 더 정교하게 이해하고 설명할 수 있게 하는 중요한 진전을 보여줍니다.