Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

이 논문은 멀티모달 대형 언어 모델 (MLLM) 을 활용하여 객체 간 활동과 상호작용에 대한 텍스트 설명을 생성하고 이를 노멀 비디오의 설명과 비교함으로써 복잡한 상호작용 기반 이상을 탐지하고 설명 가능성을 제공하는 새로운 반지도식 비디오 이상 탐지 프레임워크를 제안합니다.

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

게시일 2026-03-02
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"비디오 감시 카메라가 이상한 일을 찾아낼 때, 단순히 '이상하다'고만 말하는 게 아니라, '왜' 이상한지 사람처럼 설명해 주는 새로운 방법"**을 제안한 연구입니다.

기존의 기술들은 비디오를 픽셀 (화소) 단위로 분석해서 "어딘가 모양이 다르다"라고만 알려주었습니다. 하지만 이 새로운 방법은 ** Multimodal Large Language Model (MLLM, 멀티모달 대형 언어 모델)**이라는 '똑똑한 AI 비서'를 고용하여, 비디오 속 사물들이 무엇을 하고 있는지, 서로 어떻게 상호작용하는지를 사람 말로 설명하게 만든 뒤, 그 설명을 비교하여 이상을 감지합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🕵️‍♂️ 1. 기존 방식 vs 새로운 방식: "경고등" vs "경비원"

기존 방식 (전통적인 VAD):
마치 감시 카메라에 달린 자동 경고등과 같습니다.

  • "저기 사람 모양이 이상하게 늘어졌어요! (이상 감지)"
  • "저기 물체가 갑자기 움직였어요! (이상 감지)"
  • 문제점: 왜 이상한지, 정확히 무슨 일이 벌어졌는지는 모릅니다. 또한, 두 사람이 싸우는 것 같은 복잡한 상황 (사물 간의 상호작용) 을 구별하기 어렵습니다.

이 논문의 방식 (MLLM-EVAD):
마치 매우 똑똑한 경비원이 카메라를 보고 상황을 설명하는 것과 같습니다.

  • "저기 두 사람이 서로 손을 잡으며 걷고 있어요. (정상)"
  • "하지만 지금 저기서는 한 사람이 다른 사람을 밀어내고 있어요. (이상)"
  • 장점: 단순히 "이상하다"가 아니라, **"누가, 무엇을, 어떻게 했는지"**를 사람처럼 설명해 줍니다. 그래서 왜 그것이 이상한지 바로 이해할 수 있습니다.

🎬 2. 이 기술은 어떻게 작동할까요? (3 단계 과정)

이 시스템은 마치 영화 촬영 현장에서 일하는 것 같습니다.

1 단계: 배우 (사물) 찾기 & 짝짓기

  • 먼저 비디오 속의 모든 사람, 자동차, 개 등을 찾아냅니다 (물체 탐지).
  • 그리고 서로 가까이 있는 사물들을 **짝 (Pair)**으로 만듭니다. 예를 들어, "사람 A 와 사람 B"가 가까이 있으니 이 둘의 관계를 지켜보라고 합니다.

2 단계: AI 비서에게 상황 설명시키기

  • 카메라가 1 초 간격으로 찍은 두 장의 사진 (과거와 현재) 을 AI 비서에게 보여줍니다.
  • AI 비서에게 "이 두 장의 사진에서, 빨간 박스 안의 사람들이 무엇을 하고 있나요?"라고 묻습니다.
  • AI 는 **"두 사람이 횡단보도를 건너고 있다"**거나 **"한 사람이 다른 사람을 밀고 있다"**와 같은 **문장 (텍스트)**으로 답합니다.
    • 중요한 점: AI 는 단순히 그림을 보는 게 아니라, 시간이 지남에 따라 사물들이 어떻게 움직이고 상호작용하는지를 문장으로 요약합니다.

3 단계: "정상적인 행동" 사전 만들기 & 이상 감지

  • 학습 단계: 평소의 정상적인 비디오들 (예: 사람들이 평화롭게 걷는 모습) 에서 AI 가 만든 문장들을 모아서 **'정상 행동 사전 (Exemplar Set)'**을 만듭니다.
    • 예시: "사람이 걷는다", "차가 멈춘다", "개가 산책한다".
  • 테스트 단계: 새로운 비디오가 들어오면, AI 가 그 상황을 문장으로 설명합니다.
    • 만약 설명이 "사람이 차를 타고 날아다닌다"라면?
    • 이 문장은 '정상 행동 사전'에 있는 어떤 문장과도 맞지 않습니다.
    • **"이건 사전에 없는 이상한 일이야!"**라고 판단하고 알람을 울립니다.

💡 3. 왜 이 방법이 특별한가요? (핵심 장점)

① "왜"가 명확합니다 (설명 가능성)
기존 기술은 "여기가 이상해요"라고만 했지만, 이 방법은 **"한 사람이 다른 사람을 밀고 있어요"**라고 설명합니다. 경비원이나 경찰이 현장에 갔을 때, 왜 이상한지 바로 이해할 수 있어 매우 유용합니다.

② 복잡한 상호작용을 잡아냅니다
기존에는 사람 하나하나만 봤기 때문에, "사람이 개를 목줄 없이 데리고 걷는 것"은 정상으로 보일 수 있었습니다. 하지만 이 방법은 **사람과 개의 관계 (상호작용)**를 문장으로 설명하므로, "목줄 없이 걷는 개"라는 이상한 상호작용을 바로 찾아냅니다.

③ 새로운 장소를 위해 다시 공부할 필요가 없습니다
기존 방식은 새로운 카메라 위치 (예: 학교 vs 쇼핑몰) 에 맞춰 AI 를 다시 훈련시켜야 했지만, 이 방법은 정상적인 행동의 '문장'만 모으면 되므로 새로운 장소에서도 쉽게 적용할 수 있습니다.


📊 4. 실제 결과는 어떨까요?

연구팀은 여러 테스트를 진행했습니다.

  • 복잡한 상황 (ComplexVAD): 사람들이 서로 밀고 넘어지거나, 개가 목줄 없이 돌아다니는 등 복잡한 상황을 잘 찾아냈습니다.
  • 일반적인 상황 (Avenue, Street Scene): 기존에 잘 알려진 데이터셋에서도 가장 좋은 성적을 거두었습니다.
  • 사람 평가: 사람들이 만든 설명과 AI 가 만든 설명을 비교했을 때, AI 가 만든 설명도 매우 자연스럽고 유용하다는 평가를 받았습니다.

⚠️ 5. 한계점과 미래 (현실적인 이야기)

한계점:

  • 속도: 이 똑똑한 AI 비서 (Gemma 3, GPT-4o 등) 는 생각보다 느리고 전기를 많이 먹습니다. 그래서 실시간으로 모든 카메라를 감시하기에는 아직 무겁습니다.
  • 환각 (Hallucination): 가끔 AI 가 없는 것을 있는 것처럼 말실수를 할 수 있습니다. 하지만 이 시스템은 AI 의 말을 100% 믿기보다, '정상적인 패턴'과 비교하는 보조 도구로만 쓰므로 위험을 줄였습니다.

미래:

  • 앞으로는 더 작고 빠른 AI 모델을 개발해서 실시간 감시에도 쓸 수 있도록 하려고 합니다.
  • 또한, AI 가 만든 설명이 얼마나 정확한지 검증할 수 있는 새로운 데이터셋도 만들어야 한다고 말합니다.

🎯 요약

이 논문은 **"비디오 감시를 단순한 '이상 탐지'에서 '이해와 설명'이 가능한 단계로 끌어올린 연구"**입니다. 마치 비디오를 보고 사람처럼 상황을 설명해 주는 똑똑한 경비원을 도입하여, 복잡한 사건을 더 정확하게 찾고, 그 이유를 명확하게 알려주는 혁신적인 방법입니다.