Language-guided Open-world Video Anomaly Detection under Weak Supervision

이 논문은 사용자 정의 자연어 지시를 통해 개방형 환경에서 가변적인 이상 정의를 감지할 수 있는 새로운 패러다임인 LaGoVAD 모델과 이를 학습하기 위한 대규모 데이터셋 PreVAD 를 제안하여 약한 감독 하의 비디오 이상 탐지 성능을 획기적으로 개선했습니다.

Zihao Liu, Xiaoyu Wu, Jianqin Wu, Xuxu Wang, Linlin Yang

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 제목: "상황에 따라 달라지는 '이상한 행동'을 찾아주는 똑똑한 감시 카메라"

1. 기존 기술의 문제점: "고정된 규칙의 한계"

기존의 감시 카메라 (기존 AI) 는 **"무엇이 정상이고 무엇이 비정상인지"**를 미리 정해진 규칙으로만 배웁니다.

  • 예시: "도로에 사람이 있으면 비정상 (사고 위험)"이라고 배웠다면, 그 카메라는 도로에 사람이 있는 모든 장면을 '비상'으로 알립니다.
  • 문제: 하지만 세상은 변합니다. 감기 유행기에는 "마스크를 안 쓰는 것"이 비정상이고, 평소에는 정상입니다. 혹은 범죄 수사에서는 "도로를 뛰어가는 것"이 비정상일 수 있지만, 운동장에서는 정상입니다.
  • 결국: 기존 카메라는 이런 상황 (Context) 의 변화를 이해하지 못해, 때로는 엉뚱한 경보를 울리거나 진짜 위험을 놓칩니다. 이를 논문에서는 **'개념의 이동 (Concept Drift)'**이라고 부릅니다.

2. 이 논문의 해결책: "LaGoVAD (말가이드형 감시 시스템)"

저자들은 이 문제를 해결하기 위해 **"사용자가 말로 지시하면, 그 말대로 감시한다"**는 새로운 방식을 제안했습니다.

  • 비유: 기존 감시 카메라가 **"고정된 매뉴얼"**만 보고 일한다면, 이 새로운 시스템 (LaGoVAD) 은 **"사용자가 주는 '오늘의 지시사항' 메모"**를 보고 일합니다.
    • 사용자가 "오늘은 마스크 미착용을 찾아줘"라고 말하면 → 마스크를 안 쓴 사람을 잡습니다.
    • 사용자가 "오늘은 도로 위 보행자를 찾아줘"라고 말하면 → 도로에 있는 사람을 잡습니다.
    • 사용자가 "오늘은 화재만 찾아줘"라고 말하면 → 연기만 감지합니다.
  • 핵심: AI 가 미리 정해진 답을 외우는 게 아니라, **사용자의 말 (자연어)**을 이해하고 그 정의에 맞춰 실시간으로 판단 기준을 바꿉니다.

3. 어떻게 가능했을까? 두 가지 비밀 무기

이 시스템이 말을 잘 이해하고 헷갈리지 않기 위해 두 가지 기술을 썼습니다.

  1. 동적인 비디오 합성 (Dynamic Video Synthesis): "가상 훈련"

    • 실제 영상은 길고, 이상한 사건은 짧게 일어납니다. 하지만 인터넷에 있는 영상들은 편집되어 사건이 길게 나오기 쉽습니다.
    • 이 시스템은 가상의 영상을 만들어내며 훈련합니다. 정상적인 장면과 비정상적인 장면을 섞어서 "이건 10 분 동안 정상이고, 10 초 동안 비정상이다"라고 다양한 패턴을 스스로 만들어내며 학습합니다. 마치 다양한 시나리오를 가진 가상 현실 게임을 통해 훈련하는 것과 같습니다.
  2. 강력한 대비 학습 (Contrastive Learning with Hard Negative Mining): "오답 노트"

    • AI 가 "비정상"이라고 생각한 것 중, 사실은 "정상"인 것 (예: 사람이 뛰어다니는데 운동 중인 경우) 을 찾아내어 **"이건 비정상이 아니야!"**라고 가르칩니다.
    • 이를 통해 AI 는 매우 미묘한 차이까지 구별할 수 있는 날카로운 눈을 갖게 됩니다.

4. 준비된 재료: "PreVAD (거대한 학습 교재)"

이 똑똑한 AI 를 가르치기 위해, 저자들은 **기존에 없던 가장 크고 다양한 학습 데이터 (PreVAD)**를 만들었습니다.

  • 규모: 약 3 만 5 천 개 이상의 영상.
  • 특징: 단순히 "비정상"이라고 표시된 게 아니라, **"무엇이 왜 비정상인지"에 대한 자세한 설명 (텍스트)**이 함께 붙어 있습니다.
  • 효과: 마치 수천 권의 사례집과 해설이 달린 교재를 통해 AI 를 가르친 덕분에, 새로운 상황에서도 유연하게 대처할 수 있게 되었습니다.

5. 결과: "어떤 상황에서도 최고의 성능"

이 시스템을 다른 7 개의 다양한 데이터셋 (범죄, 교통, 동물 등) 에서 테스트해 보았습니다.

  • 결과: 기존에 가장 잘하던 방법들보다 압도적으로 좋은 성능을 보였습니다.
  • 특히: 사용자가 "이건 비정상이다"라고 정의만 바꿔주면, 새로운 정의에 맞춰 즉시 적응하여 정확한 경보를 울렸습니다.

💡 한 줄 요약

"이 논문은 "상황이 변하면 정의도 변한다"는 사실을 인정하고, 사용자가 말로 지시하는 대로 유연하게 변신하며 이상을 찾아내는 초지능 감시 시스템을 개발했습니다."

이 기술은 앞으로 병원, 공장, 도로, 쇼핑몰 등 장소와 상황에 따라 '비정상'의 기준이 달라지는 모든 곳에서, 사용자의 필요에 맞춰 똑똑하게 작동할 감시 시스템으로 활용될 수 있을 것입니다.