Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

이 논문은 멀티모달 대규모 언어 모델 (MLLM) 이 제로샷 설정에서 비디오 이상 탐지 시 높은 정밀도를 보이지만 재현율 (recall) 이 급격히 저하되는 보수적 편향을 가지며, 클래스별 지시어를 통해 성능을 개선할 수 있으나 여전히 실용적 한계가 있음을 규명합니다.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand, Hamed Tabkhi

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"멀티모달 대형 언어 모델 (MLLM)"**이라는 최신 AI 기술이 실제 감시 카메라에서 **'비정상적인 사건 (예: 폭행, 도난, 사고)'**을 찾아낼 수 있는지, 그리고 그 신뢰도가 얼마나 되는지 실험한 연구입니다.

쉽게 비유하자면, **"AI 에게 감시 카메라를 맡겼을 때, AI 가 정말로 '범인'을 찾아낼 수 있을까?"**를 검증한 보고서입니다.

주요 내용을 일상적인 비유로 설명해 드릴게요.


1. 연구의 배경: "AI 는 이제 영화를 잘 보나요?"

최근 AI 는 텍스트, 이미지, 영상을 모두 이해하는 '만능 천재'처럼 변했습니다. 마치 수만 권의 책을 읽고, 수백 편의 영화를 본 뒤, 그 내용을 완벽하게 이해하는 지적인 감시관이 생긴 것과 같습니다.

하지만 연구자들은 의문을 가졌습니다.

"이 AI 가 영화 속 이야기를 분석하는 건 잘할지 몰라도, 실제 거리의 복잡한 CCTV 화면을 보고 '지금 뭔가 이상해!'라고 즉시 외칠 수 있을까?"

2. 실험 방법: "AI 에게 질문을 어떻게 던지나?"

연구진은 AI 에게 영상을 보여주고 "이게 비정상적인가?"라고 물었습니다. 이때 중요한 것은 질문 (프롬프트) 의 방식이었습니다.

  • 상황: AI 에게 1 초~3 초짜리 짧은 영상 조각을 보여줍니다.
  • 질문: "이 영상에 이상한 행동이 있나요? (1 이면 이상, 0 이면 정상)"
  • 변수: 질문을 아주 짧게 던질지, 아니면 "도둑질이나 폭행 같은 위험한 행동을 찾아줘"라고 구체적으로 지시할지 바꿔가며 실험했습니다.

3. 핵심 발견 1: "AI 는 너무 겁이 많아요 (Conservative Bias)"

가장 놀라운 결과는 AI 가 '범인'을 찾아내지 못한다는 점이었습니다.

  • 비유: imagine imagine 매우 조심스러운 경비원을 상상해 보세요.
    • 이 경비원은 "뭔가 이상해!"라고 소리치면 실수할까 봐 무서워합니다.
    • 그래서 아무 일도 없는 평범한 상황을 보고도 "아무 일 없어요"라고만 말합니다.
    • 결과: 거짓 경보 (False Positive) 는 거의 안 뜨는데, 진짜 범인을 놓치는 경우 (Recall) 가 90% 이상이었습니다.
    • 즉, AI 는 "모르는 척" 하다가 넘어가는 경향이 매우 강했습니다.

4. 핵심 발견 2: "질문에 '범인'을 명시해 주니 눈이 떠졌다!"

하지만 질문을 조금만 바꿔주니 상황이 완전히 달라졌습니다.

  • 비유: 경비원에게 "평범한 사람들은 그냥 지나가도 되지만, 도둑질하거나 싸우는 사람만 꼭 잡아내!"라고 구체적으로 지시했습니다.
  • 결과: AI 의 성능이 급격히 좋아졌습니다.
    • 성공률 (F1 점수): 0.09(거의 실패) 에서 **0.64(상당히 성공)**로 7 배 이상 뛰었습니다.
    • 이유: AI 는 원래 '이상한 것'을 정의하지 않으면 '안전한 것'으로 간주하는 경향이 있는데, **"무엇을 찾아야 하는지 (Class-specific instruction)"**를 명확히 알려주니 비로소 눈을 뜨고 범인을 찾아낸 것입니다.

5. 핵심 발견 3: "영상을 길게 보여준다고 해서 더 잘 보지 않아요"

연구진은 영상을 1 초, 2 초, 3 초로 길게 끊어서 보여줬습니다.

  • 비유: 1 초짜리 사진만 보여준다면 AI 가 상황을 파악하기 어렵겠죠? 그래서 3 초짜리 짧은 영상을 보여줬습니다.
  • 결과:
    • 상하이테크 (SHT) 데이터: 화질이 조금 낮고 단순한 환경에서는 영상이 길어질수록 AI 가 상황을 더 잘 이해했습니다. (시간이 더 주어지니 판단이 명확해짐)
    • CHAD 데이터: 고화질이고 복잡한 실제 감시 환경에서는 영상이 길어졌다고 해서 성능이 크게 오르지 않았습니다. 오히려 너무 많은 정보 때문에 혼란을 겪는 경우도 있었습니다.
    • 교훈: 단순히 영상을 길게 보여준다고 해서 AI 가 더 똑똑해지는 건 아닙니다.

6. 결론: "AI 는 아직 감시관으로 쓰기엔 '조심스러움'이 문제"

이 연구는 다음과 같은 결론을 내립니다.

  1. AI 는 아직 완벽하지 않습니다: 현재 AI 는 '범인을 놓치는 것'을 '실수'보다 더 두려워합니다. 그래서 진짜 위험한 상황에서도 침묵할 확률이 높습니다.
  2. 질문이 핵심입니다: AI 에게 "무엇을 찾아야 하는지"를 **구체적으로 가르쳐주는 것 (프롬프트 엔지니어링)**이 성능을 결정하는 가장 중요한 열쇠입니다.
  3. 미래의 과제: AI 를 실제 감시 시스템에 쓰려면, 단순히 영상의 화질을 높이는 것보다 AI 가 '위험'을 감지할 때 덜 망설이도록 훈련시키는 것이 더 중요합니다.

한 줄 요약:

"최신 AI 는 영화를 분석하는 데는 천재지만, 실제 감시 카메라 앞에서는 너무 조심스러워서 범인을 놓치는 경향이 있습니다. 하지만 무엇을 찾아야 하는지 구체적으로 지시해주면, 그 능력은 크게 향상됩니다."