BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

이 논문은 최신 생성 모델로 제작된 고품질 20 만 개 이상의 비디오를 포함한 대규모 데이터셋 'GenBuster-200K'와 다양한 도메인 및 세대 변화를 평가하는 벤치마크 'GenBuster-Bench'를 제시하고, 검출을 시각적 추론 과제로 전환하여 정확성과 설명 가능성을 동시에 향상시킨 강화학습 기반 MLLM 모델 'BusterX'를 개발했습니다.

Haiquan Wen, Yiwei He, Zhenglin Huang, Tianxiao Li, Zihan Yu, Xingru Huang, Lu Qi, Baoyuan Wu, Xiangtai Li, Guangliang Cheng

게시일 2026-03-09
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 BusterX: "AI 가짜 영상 탐정"의 등장

이 논문은 인공지능 (AI) 이 만든 가짜 영상이 점점 더 진짜처럼 보일수록, 어떻게 그 가짜를 찾아내고 "왜 가짜인지" 설명할 수 있는지에 대한 새로운 해결책을 제시합니다. 마치 마법 같은 기술을 가진 가짜 영상을 잡아내는 새로운 형사 팀이 등장한 셈이죠.

이 내용을 쉽게 이해할 수 있도록 세 가지 핵심 요소로 나누어 설명해 드릴게요.


1. 📚 더 똑똑한 훈련을 위한 '최신 교재' (GenBuster-200K)

과거의 연구들은 마치 10 년 전의 낡은 교재로 현대의 수능을 대비하는 것과 비슷했습니다.

  • 문제점: 기존 데이터는 오래된 AI 기술로 만든 영상이 많아, 가짜임을 금방 알아챌 수 있는 뻔한 결함 (예: 손가락이 6 개, 눈이 깜빡임) 이 많았습니다. 또한, 특정 인종이나 성별에 치우친 편향도 있었습니다.
  • 해결책 (GenBuster-200K): 연구팀은 20 만 개가 넘는 최신, 고화질 영상으로 구성된 새로운 데이터셋을 만들었습니다.
    • 비유: 마치 최신형 스포츠카와 오프로드 차량을 모두 포함시켜 운전사 (AI) 가 어떤 상황에서도 운전할 수 있도록 훈련시키는 것과 같습니다.
    • 공정성: 남자와 여자, 다양한 인종과 나이가 골고루 섞여 있어, 특정 그룹만 가짜로 오인하는 편향을 없앴습니다.

2. 🏆 단계별 '실전 시험' (GenBuster-Bench)

기존의 평가 방식은 단순히 "정답/오답"만 체크하는 단일 시험이었습니다. 하지만 진짜 가짜 영상을 탐지하려면 더 복잡한 테스트가 필요합니다. 연구팀은 이를 3 단계로 나눈 실전 시험을 만들었습니다.

  1. 1 단계 (기본기): 우리가 알고 있는 최신 AI 로 만든 영상 (In-Domain).
  2. 2 단계 (응용): 우리가 아직 본 적 없는, 내일 나올 최신 AI로 만든 영상 (Out-of-Domain).
    • 비유: 오늘 시험을 보고 내일 나올 새로운 유형의 문제를 해결할 수 있는지 보는 것입니다.
  3. 3 단계 (실전): SNS 에 올라와서 압축되거나 흐릿해진 실제 가짜 영상 (In-the-Wild).
    • 비유: 맑은 날이 아니라 비와 진흙탕 속에서 운전할 수 있는지 보는 극한 테스트입니다.

또한, AI 가 내린 결론에 대해 "왜 가짜라고 생각했는지" 그 이유를 평가하는 심사위원 (MLLM-as-a-Judge) 시스템을 도입했습니다. 단순히 "가짜"라고만 말하면 안 되고, **"손가락이 떨리는 게 자연스럽지 않아서"**라고 구체적으로 설명해야 점수를 받습니다.

3. 🕵️‍♂️ 새로운 형사 'BusterX' (논리적 추론을 하는 AI)

기존의 AI 는 영상을 보고 "가짜다 (Yes)" 또는 **"진짜다 (No)"**라고만 답하는 블랙박스였습니다. 하지만 BusterX 는 다릅니다.

  • 기존 방식: "이건 가짜야!" (왜? 모름)
  • BusterX 방식: "자, 이 영상을 하나씩 살펴볼게요. 1. 피부 질감이 너무 매끄러워요. 2. 그림자가 빛의 방향과 안 맞아요. 3. 프레임이 넘어갈 때 얼굴이 뚝뚝 끊겨요. 결론: 가짜입니다."
  • 핵심 기술: BusterX 는 **강화 학습 (RL)**이라는 기술을 통해 스스로 추론하는 법을 배웠습니다. 마치 수사관이 증거를 하나하나 모아서 논리적으로 범인을 찾아내는 과정처럼, AI 가 스스로 생각의 흐름 (Chain of Thought) 을 만들어내며 가짜를 찾아냅니다.

🌟 왜 이것이 중요한가요?

이 연구는 단순히 "가짜를 잡는다"는 것을 넘어, **"왜 가짜인지 인간이 이해할 수 있게 설명한다"**는 점에 의미가 있습니다.

  • 기존: "이건 가짜야." (사람은 왜인지 모름)
  • BusterX: "이 영상은 AI 가 만든 거예요. 왜냐하면 손가락이 6 개이고, 배경의 나무가 흔들리는 방식이 물리 법칙과 다르기 때문이에요."

이제 우리는 AI 가 만든 가짜 영상에 속지 않고, 그 가짜가 어떻게 만들어졌는지 이해할 수 있는 눈을 갖게 된 것입니다. 마치 가짜 지폐를 구별할 때 단순히 "가짜"라고 외치는 게 아니라, **"인쇄 질감과 수직선이 다르다"**라고 구체적으로 지적할 수 있게 된 것과 같습니다.

한 줄 요약:

"이제 AI 가 만든 가짜 영상을 잡는 건 물론, **그 가짜가 왜 가짜인지 논리적으로 설명해 주는 똑똑한 형사 (BusterX)**가 등장했습니다!"