Each language version is independently generated for its own context, not a direct translation.

🛡️ BLM-Guard: 숏폼 광고의 '똑똑한 감시자' 이야기

이 논문은 짧은 동영상 플랫폼 (틱톡, 인스타그램 릴스 등) 에 올라오는 **수많은 광고들을 어떻게 하면 더 똑똑하고 공정하게 검사할 수 있을까?**에 대한 해답을 제시합니다.

기존의 방법들은 "노출된 사진"이나 "폭력적인 장면" 같은 거친 위험만 잡아냈습니다. 하지만 요즘 광고는 훨씬 교묘합니다. "무료로 고급 스마트폰을 드립니다!"라고 말하면서 실제로는 사기성 앱인 경우나, "건강에 좋다"는 자막과 "신장 질환"을 암시하는 영상이 어긋나는 경우처럼, **시각과 청각, 텍스트가 서로 다른 메시지를 보내는 '미묘한 사기'**를 잡아내기가 매우 어렵습니다.

이 문제를 해결하기 위해 개발된 BLM-Guard를 쉽게 설명해 드릴게요.

🧐 1. BLM-Guard 란 무엇인가요?

BLM-Guard 는 광고를 검사하는 초지능 AI 감시관입니다. 하지만 단순히 "이건 나쁜 거야"라고만 말하지 않습니다. **왜 나쁜지, 어떤 규칙을 어겼는지, 그 이유를 단계별로 설명 (Chain-of-Thought)**할 수 있는 '설명 가능한' AI 입니다.

비유하자면:
기존 감시관은 "이 사람 옷이 이상하니까 잡으세요"라고만 했지만,
BLM-Guard는 "이 사람은 '무료'라고 말했지만 실제로는 '비싼 상품'을 팔고 있고, 영상 속 자막과 목소리가 서로 다른 이야기를 하고 있으니 사기성 광고입니다"라고 증거를 들어 설명해 줍니다.

🛠️ 2. 어떻게 작동할까요? (3 단계 훈련 과정)

이 AI 는 단순히 책을 읽는 것만으로는 부족합니다. 세 가지 특별한 훈련을 거칩니다.

① 단계 1: '규칙 책'과 '생각의 사다리를' 함께 배우기 (SFT)

AI 는 처음부터 모든 걸 알 수 없습니다. 그래서 먼저 **규칙 책 (정책)**과 **생각의 과정 (Chain-of-Thought)**을 함께 가르칩니다.

핵심: AI 가 광고를 볼 때, "아, 이 영상은 '과장 광고'일 수도 있겠네"라고 바로 결론 내리지 않고, **"영상 속 폰이 보이고, 목소리는 '무료'라고 하는데 자막은 '구매'라고 하네. 이건 규칙 위반일 수 있어"**라고 단계별로 생각하는 법을 배웁니다.
효과: AI 가 왜 그런 결론을 내렸는지 인간이 이해할 수 있는 '이유'를 만들어냅니다.

② 단계 2: '현실적인 시뮬레이션' 훈련 (데이터 합성)

실제 나쁜 광고를 모두 모으기엔 비용이 너무 많이 듭니다. 그래서 AI 가 가상의 나쁜 광고 상황을 스스로 만들어내며 훈련합니다.

비유: 마치 비행기 조종사가 실제 사고 없이 시뮬레이터로 훈련하듯, AI 는 "만약 이 광고가 '수익 과장'을 했다면 어떻게 될까?"라는 가상의 상황을 만들어 스스로 판단하고 수정하는 연습을 합니다.

③ 단계 3: '현명한 코치'의 피드백 (강화 학습)

훈련이 끝난 후, AI 는 실제 광고를 검사하며 점수를 받습니다.

코치의 역할: AI 가 내린 결론이 맞았는지, 규칙을 잘 지켰는지, 그리고 이유가 논리적인지를 평가하는 '코치 (Reward Model)'가 있습니다.
동적 보상: 만약 AI 가 "규칙은 지켰는데, 이유 설명이 엉터리야"라고 하면 점수를 깎아줍니다. 반대로 "정확하게 규칙을 찾아내고, 이유도 완벽하게 설명했어"라고 하면 큰 점수를 줍니다. 이 과정을 반복하며 AI 는 점점 더 똑똑해집니다.

📊 3. 왜 이 기술이 특별한가요?

기존의 AI 들은 광고의 모달리티 (영상, 음성, 텍스트) 가 서로 어긋나는 경우를 잘 못 잡아냈습니다.

예시: 영상은 "이 약은 기적처럼 낫는다"라고 보여주는데, 목소리는 "부작용이 있을 수 있습니다"라고 말한다면?
BLM-Guard 의 강점: 이 AI 는 영상과 목소리가 서로 모순된다는 것을 바로 알아차리고, "이건 소비자를 속이는 교묘한 사기다"라고 판단합니다.

또한, 규칙이 바뀌어도 (예: 새로운 사기 수법이 등장해도) AI 가 스스로 적응하여 새로운 규칙을 빠르게 학습할 수 있습니다.

🏆 4. 결론: 더 안전한 인터넷을 위한 '지능형 파수꾼'

이 연구는 단순히 나쁜 광고를 막는 것을 넘어, 왜 그 광고가 나쁜지 설명할 수 있는 투명성을 제공합니다.

사용자: "왜 이 광고가 차단되었는지" 이유를 알 수 있어 불만이 줄어듭니다.
플랫폼: 더 정교하고 공정한 검사가 가능해져 신뢰도가 올라갑니다.
광고주: 명확한 규칙을 알 수 있어 건전한 광고를 만들 수 있습니다.

한 줄 요약:

BLM-Guard는 단순히 '나쁜 것'을 막는 경비원이 아니라, **광고의 속임수를 꿰뚫어 보고 그 이유를 논리적으로 설명해 주는 '똑똑한 변호사兼 검사관'**입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

짧은 동영상 플랫폼 (틱톡, 인스타그램 릴스 등) 의 급성장으로 인해 시각, 음성, 자막이 결합된 다중 모달 (Multimodal) 광고가 폭발적으로 증가했습니다. 그러나 기존 콘텐츠 심의 시스템은 다음과 같은 한계를 겪고 있습니다.

세밀한 정책 준수 부족: 기존 시스템은 폭력성이나 노출 등 거시적인 위험 (Community Safety) 위주로 설계되어, 광고 특유의 미묘한 위반 (과장된 주장, 기만적 표현, 규정 회피) 을 탐지하는 데 취약합니다.
모달리티 불일치: 시각적 진실과 음성/자막의 기만적 내용 사이의 불일치 (Cross-modal mismatch) 나 과장된 이미지 등 복잡한 위반 패턴을 이해하지 못합니다.
정책 변화 적응성 부재: 플랫폼의 광고 정책은 수시로 변경되는데, 기존 모델은 이러한 정책 드리프트 (Policy Drift) 에 유연하게 대응하지 못합니다.
해석 가능성 (Explainability) 결여: 단순히 '위반' 또는 '정상'으로 분류하는 것만으로는 위반의 구체적인 이유 (예: 어떤 정책 조항을 위반했는지) 를 설명할 수 없습니다.

2. 제안 방법론: BLM-Guard

이 논문은 BLM-Guard라는 새로운 심의 프레임워크를 제안하며, Chain-of-Thought (CoT) 추론과 규칙 기반 정책 정렬 (Policy-Aligned) 강화 학습을 결합합니다.

A. 핵심 아키텍처 및 학습 파이프라인

학습은 두 단계의 파이프라인으로 구성됩니다.

1 단계: 규칙 기반 ICoT (Interleaved-modal Chain-of-Thought) 지도 학습 (SFT)
- 데이터 생성: 전문 심의자 라벨링과 규칙 기반 필터링을 통해 데이터를 수집합니다.
- ICoT 데이터 합성: InternVL 과 같은 비전 - 언어 모델을 사용하여 ICoT 데이터를 생성합니다. 이는 시각적 근거 (Keyframes, Regions) 와 텍스트 추론을 번갈아 가며 (Interleaved) 구조화된 추론 체인 (관찰 $\rightarrow$ 위험 스크리닝 $\rightarrow$ 인과 분석 $\rightarrow$ 최종 판단) 을 생성합니다.
- 규칙 고정 SFT: 생성된 데이터로 모델을 미세 조정 (SFT) 하되, 모델의 추론 분포가 미리 정의된 정책 키워드 (예: "과장 광고", "사기") 와 일치하도록 KL 발산을 통해 유도합니다.
2 단계: 자기 적응형 GRPO 강화 학습 (RL)
- GRPO (Group Relative Policy Optimization): 표준 PPO 대신 GRPO 를 사용하여 그룹 내 상대적 이득을 기반으로 정책을 최적화합니다.
- 하이브리드 보상 설계 (Hybrid Reward):
  - 규칙 기반 보상 ( $r_{rule}$ ): 위반 장면과 유형이 정답과 일치하는지 확인.
  - 형식 인식 보상 ( $r_{format}$ ): <answer> 및 <thought> 태그 등 구조화된 출력 형식 준수 여부 확인.
  - SCA-R (Self-Consistency and Adaptive Reward): 가이드 모델이 추론 과정의 인과성, 위험 귀인, 정책 정렬도를 평가하여 동적으로 점수를 부여. 이는 정책 변화에 유연하게 대응하게 합니다.
- 토큰 레벨 정규화: 출력 길이에 따른 편향을 줄이기 위해 시퀀스 레벨이 아닌 토큰 레벨에서 손실을 계산합니다.

B. 다중 태스크 아키텍처

모델은 모달 내 조작 (Intra-modal manipulation, 예: 과장된 이미지) 과 모달 간 불일치 (Cross-modal mismatch, 예: 자막과 음성 불일치) 를 동시에 모델링하여 강건성을 높입니다.

3. 주요 기여 (Key Contributions)

BLM-Guard 벤치마크 출시:
- 실제 짧은 동영상 광고로 구성된 대규모 데이터셋을 공개했습니다.
- 3 단계 계층적 라벨링을 적용: (1) 심각도 (High/Medium/Low), (2) 위험 시나리오 (불법 콘텐츠, 허위 마케팅 등), (3) 위반 유형 (소득 과장, 사기 등).
- 구조화된 추론 트레이스 (Reasoning Traces) 를 포함하여 해석 가능한 평가가 가능합니다.
BLM-Guard 프레임워크 제안:
- 규칙 기반 ICoT 추론, 일관성 인식 강화 학습, 다중 태스크 모델링을 통합하여 정책 준수성과 해석 가능성을 동시에 확보한 최초의 프레임워크 중 하나입니다.
성능 및 일반화 입증:
- 기존 SOTA 모델 (LLaVA-Guard, QwenGuard 등) 보다 정확도, 일관성, 일반화 성능에서 월등히 뛰어난 결과를 보였습니다.

4. 실험 결과 (Results)

벤치마크 성능: BLM-Guard 는 BLM-Guard-Bench 에서 모든 메트릭 (심각도 분류, 엄격한 정확도, 이진 탐지, 추론 일관성) 에서 기존 모델들을 압도했습니다.
- 엄격한 정확도 (Strict Accuracy): 91.4% (기존 최상위 모델인 Qwen2.5-VL-32B 의 68.2% 대비 압도적).
- 추론 일관성 (Consistency): 0.845 (GPT-4o 기반 평가).
일반화 능력: LSPD, XD-Violence, FakeSV 등 공개된 외부 데이터셋에서도 뛰어난 성능을 보였으며, 특히 허위 정보 (Misinformation) 탐지 분야에서 기존 모델들이 실패하는 경우에도 성공적으로 탐지했습니다.
Ablation Study:
- 규칙 기반 SFT 와 SCA-R 기반 RL 을 결합한 전체 모델이 가장 우수한 성능을 보였습니다.
- 단일 단계 SFT 나 규칙만 적용된 RL 보다 규칙 기반 SFT + 적응형 RL 조합이 추론의 정확도와 정책 정렬도를 모두 향상시킴을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 단순한 콘텐츠 필터링을 넘어, 상업적 광고의 복잡한 규제 환경에 대응할 수 있는 새로운 패러다임을 제시합니다.

해석 가능한 심의: 모델이 왜 해당 광고를 위반으로 판단했는지 구체적인 추론 과정 (Chain-of-Thought) 을 제공함으로써, 플랫폼 운영자와 규제 기관의 신뢰를 높입니다.
동적 정책 적응: 고정된 규칙이 아닌, 강화 학습을 통한 자기 적응형 보상 (SCA-R) 을 도입하여 빠르게 변화하는 광고 규정에 유연하게 대응할 수 있습니다.
실용성: 실제 플랫폼 (Kuaishou) 에서 수집된 데이터를 기반으로 하여, 이론적 모델이 아닌 실제 산업 현장에서의 적용 가능성을 입증했습니다.

결론적으로, BLM-Guard 는 생성형 AI 시대의 다중 모달 광고 심의 문제를 해결하기 위해 구조화된 추론과 정책 정렬 강화 학습을 성공적으로 융합한 선구적인 연구입니다.

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards