Language-guided Open-world Video Anomaly Detection under Weak Supervision

Each language version is independently generated for its own context, not a direct translation.

🎬 제목: "상황에 따라 달라지는 '이상한 행동'을 찾아주는 똑똑한 감시 카메라"

1. 기존 기술의 문제점: "고정된 규칙의 한계"

기존의 감시 카메라 (기존 AI) 는 **"무엇이 정상이고 무엇이 비정상인지"**를 미리 정해진 규칙으로만 배웁니다.

예시: "도로에 사람이 있으면 비정상 (사고 위험)"이라고 배웠다면, 그 카메라는 도로에 사람이 있는 모든 장면을 '비상'으로 알립니다.
문제: 하지만 세상은 변합니다. 감기 유행기에는 "마스크를 안 쓰는 것"이 비정상이고, 평소에는 정상입니다. 혹은 범죄 수사에서는 "도로를 뛰어가는 것"이 비정상일 수 있지만, 운동장에서는 정상입니다.
결국: 기존 카메라는 이런 상황 (Context) 의 변화를 이해하지 못해, 때로는 엉뚱한 경보를 울리거나 진짜 위험을 놓칩니다. 이를 논문에서는 **'개념의 이동 (Concept Drift)'**이라고 부릅니다.

2. 이 논문의 해결책: "LaGoVAD (말가이드형 감시 시스템)"

저자들은 이 문제를 해결하기 위해 **"사용자가 말로 지시하면, 그 말대로 감시한다"**는 새로운 방식을 제안했습니다.

비유: 기존 감시 카메라가 **"고정된 매뉴얼"**만 보고 일한다면, 이 새로운 시스템 (LaGoVAD) 은 **"사용자가 주는 '오늘의 지시사항' 메모"**를 보고 일합니다.
- 사용자가 "오늘은 마스크 미착용을 찾아줘"라고 말하면 → 마스크를 안 쓴 사람을 잡습니다.
- 사용자가 "오늘은 도로 위 보행자를 찾아줘"라고 말하면 → 도로에 있는 사람을 잡습니다.
- 사용자가 "오늘은 화재만 찾아줘"라고 말하면 → 연기만 감지합니다.
핵심: AI 가 미리 정해진 답을 외우는 게 아니라, **사용자의 말 (자연어)**을 이해하고 그 정의에 맞춰 실시간으로 판단 기준을 바꿉니다.

3. 어떻게 가능했을까? 두 가지 비밀 무기

이 시스템이 말을 잘 이해하고 헷갈리지 않기 위해 두 가지 기술을 썼습니다.

동적인 비디오 합성 (Dynamic Video Synthesis): "가상 훈련"
- 실제 영상은 길고, 이상한 사건은 짧게 일어납니다. 하지만 인터넷에 있는 영상들은 편집되어 사건이 길게 나오기 쉽습니다.
- 이 시스템은 가상의 영상을 만들어내며 훈련합니다. 정상적인 장면과 비정상적인 장면을 섞어서 "이건 10 분 동안 정상이고, 10 초 동안 비정상이다"라고 다양한 패턴을 스스로 만들어내며 학습합니다. 마치 다양한 시나리오를 가진 가상 현실 게임을 통해 훈련하는 것과 같습니다.
강력한 대비 학습 (Contrastive Learning with Hard Negative Mining): "오답 노트"
- AI 가 "비정상"이라고 생각한 것 중, 사실은 "정상"인 것 (예: 사람이 뛰어다니는데 운동 중인 경우) 을 찾아내어 **"이건 비정상이 아니야!"**라고 가르칩니다.
- 이를 통해 AI 는 매우 미묘한 차이까지 구별할 수 있는 날카로운 눈을 갖게 됩니다.

4. 준비된 재료: "PreVAD (거대한 학습 교재)"

이 똑똑한 AI 를 가르치기 위해, 저자들은 **기존에 없던 가장 크고 다양한 학습 데이터 (PreVAD)**를 만들었습니다.

규모: 약 3 만 5 천 개 이상의 영상.
특징: 단순히 "비정상"이라고 표시된 게 아니라, **"무엇이 왜 비정상인지"에 대한 자세한 설명 (텍스트)**이 함께 붙어 있습니다.
효과: 마치 수천 권의 사례집과 해설이 달린 교재를 통해 AI 를 가르친 덕분에, 새로운 상황에서도 유연하게 대처할 수 있게 되었습니다.

5. 결과: "어떤 상황에서도 최고의 성능"

이 시스템을 다른 7 개의 다양한 데이터셋 (범죄, 교통, 동물 등) 에서 테스트해 보았습니다.

결과: 기존에 가장 잘하던 방법들보다 압도적으로 좋은 성능을 보였습니다.
특히: 사용자가 "이건 비정상이다"라고 정의만 바꿔주면, 새로운 정의에 맞춰 즉시 적응하여 정확한 경보를 울렸습니다.

💡 한 줄 요약

"이 논문은 "상황이 변하면 정의도 변한다"는 사실을 인정하고, 사용자가 말로 지시하는 대로 유연하게 변신하며 이상을 찾아내는 초지능 감시 시스템을 개발했습니다."

이 기술은 앞으로 병원, 공장, 도로, 쇼핑몰 등 장소와 상황에 따라 '비정상'의 기준이 달라지는 모든 곳에서, 사용자의 필요에 맞춰 똑똑하게 작동할 감시 시스템으로 활용될 수 있을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

기존의 비디오 이상 탐지 (Video Anomaly Detection, VAD) 연구는 대부분 닫힌 세트 (Closed-set) 환경에 국한되어 있습니다. 즉, 학습 데이터에서 정의된 '정상'과 '비정상' 패턴이 테스트 시에도 변하지 않는다고 가정합니다. 그러나 실제 오픈 월드 (Open-world) 환경에서는 다음과 같은 한계가 존재합니다.

개념 드리프트 (Concept Drift): 상황이나 사용자의 요구에 따라 '비정상'의 정의가 동적으로 변할 수 있습니다.
- 예시: "도로 위 보행자"는 범죄 감시 (UCF-Crime) 에서는 정상 행동으로 간주되지만, 고속도로 감시 (TAD) 에서는 심각한 비정상 행동으로 간주됩니다.
- 예시: "마스크 미착용"은 유행병 시기에는 비정상이나, 평소에는 정상입니다.
기존 방법의 한계: 기존 오픈 세트 (Open-set) 나 도메인 일반화 (Domain Generalization) 방법은 학습 데이터에 없는 새로운 이상을 탐지할 수는 있지만, 동일한 패턴이 상황에 따라 정상에서 비정상으로 (또는 그 반대로) 재정의되는 문제를 해결하지 못합니다. 또한, 기존 데이터셋은 대부분 범주 레이블만 제공하여 의미론적 (Semantic) 정의가 부족합니다.

2. 제안 방법론 (Methodology)

저자들은 LaGoVAD (Language-guided Open-world Video Anomaly Detector) 를 제안하며, 이를 위해 새로운 오픈 월드 VAD 패러다임을 정립했습니다.

2.1 핵심 패러다임: 언어 기반 정의 조건부 학습

기존 모델이 $P(Y|V)$ (비디오만으로 이상 유무 판단) 를 학습하는 것과 달리, 제안된 모델은 비디오 ( $V$ ) 와 이상 정의 ( $Z$ ) 를 모두 입력으로 받아 $P(Y|V, Z)$ 를 학습합니다.

가정: 비정상 레이블 $Y$ 는 비디오 $V$ 와 이상 정의 $Z$ 에 의해 결정됩니다.
구현: 사용자가 자연어 (예: "도로 위 보행자는 비정상입니다") 로 이상 정의를 동적으로 입력하면, 모델은 해당 정의에 맞춰 이상 점수를 산출합니다. 이를 통해 개념 드리프트를 근본적으로 해결합니다.

2.2 모델 아키텍처 (LaGoVAD)

모델은 CLIP 기반의 비주얼/텍스트 인코더와 퓨전 모듈을 사용하며, 과적합 (Overfitting) 을 방지하기 위해 두 가지 정규화 전략을 도입합니다.

동적 비디오 합성 (Dynamic Video Synthesis, $L_{dvs}$ ):
- 문제: 실제 이상 사건은 긴 비디오에서 짧은 구간만 차지하지만, 웹 기반 데이터셋은 편집되어 이상 비율이 높음.
- 해결: 정상/비정상 비디오 세그먼트를 동적으로 조합하여 다양한 길이와 비율의 합성 비디오를 생성하고, 이를 통해 생성된 가짜 레이블 (Pseudo-label) 로 학습합니다. 이는 이상과 정상 간의 시간적 경계를 더 명확하게 학습하게 합니다.
하드 네거티브 마이닝을 통한 대비 학습 (Contrastive Learning with Hard Negative Mining, $L_{neg}$ ):
- 문제: 모호한 경계 (Normal vs Abnormal) 로 인한 특징 공간의 불명확성.
- 해결: 비정상 비디오 내의 '정상 부분'을 하드 네거티브 (Hard Negative) 로 간주하여, 이상 정의 텍스트와 비디오 특징 간의 정밀한 정렬 (Alignment) 을 강화합니다.

2.3 데이터셋: PreVAD

학습을 위해 기존 데이터셋의 한계를 극복하는 대규모 데이터셋 PreVAD를 구축했습니다.

규모: 35,279 개 비디오 (약 209.5 시간), 11,979 개의 비정상 비디오.
다양성: 범죄, 교통, 동물, 산업 사고 등 7 개의 상위 카테고리 및 35 개의 하위 카테고리.
주요 특징: 단순 카테고리 라벨이 아닌, 세부적인 이상 현상 설명 (Anomaly Descriptions) 을 포함하여 언어 기반 학습을 가능하게 함.
구축 방식: 기초 모델 (Foundation Models) 을 활용한 자동화된 데이터 정제 및 주석 생성 파이프라인을 사용하여 비용 절감 및 품질 향상.

3. 주요 기여 (Key Contributions)

새로운 패러다임 정립: 오픈 월드 VAD 에서 발생하는 '개념 드리프트' 문제를 명시적으로 모델링하고, 언어 기반 정의 ( $Z$ ) 를 조건으로 하는 새로운 학습 프레임워크를 제안했습니다.
LaGoVAD 모델 개발: 동적 비디오 합성과 하드 네거티브 마이닝을 통한 대비 학습을 결합하여, 약한 감독 (Weak Supervision) 하에서도 강력한 일반화 성능을 내는 모델을 설계했습니다.
대규모 데이터셋 PreVAD 공개: 다중 레벨 분류 체계와 상세한 텍스트 설명을 포함한 현재까지 가장 크고 다양한 비디오 이상 탐지 데이터셋을 구축 및 공개했습니다.
SOTA 성능 입증: 7 개의 다양한 데이터셋 (UCF-Crime, XD-Violence, MSAD 등) 에 대한 제로샷 (Zero-shot) 평가와 개념 드리프트 시나리오 평가에서 기존 최첨단 (SOTA) 방법들을 압도하는 성능을 보였습니다.

4. 실험 결과 (Results)

제약 1 (다양한 도메인 제로샷 평가): 7 개의 테스트 데이터셋에서 LaGoVAD 는 기존 방법들 (VadCLIP, OVVAD, PEL 등) 보다 모든 데이터셋에서 우수한 성능을 기록했습니다. 특히 XD-Violence 데이터셋에서는 탐지 성능이 20%, 분류 성능이 32% 향상되었습니다.
제약 2 (개념 드리프트 평가): 동일한 데이터셋 내에서 '비정상'의 정의 (하위 카테고리 집합) 를 변경하는 시나리오 (Drift@5) 에서 LaGoVAD 는 LLM 기반 방법 (Qwen2.5-VL 등) 보다 높은 AUC 와 AP 를 기록하며, 정의 변경에 대한 강건성을 입증했습니다.
아blation Study: 동적 비디오 합성 ( $L_{dvs}$ ) 과 하드 네거티브 마이닝 ( $L_{neg}$ ) 이 모두 제거될 경우 성능이 급격히 하락하여, 제안된 두 가지 정규화 전략의 중요성을 확인했습니다.
정성적 분석: 기존 방법 (VadCLIP) 은 정의가 바뀌어도 동일한 점수를 출력하는 반면, LaGoVAD 는 사용자의 언어 정의에 따라 정상/비정상 구간을 정확하게 재정의하고 탐지하는 것을 시각적으로 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 비디오 이상 탐지 분야에서 고정된 정의에 의존하는 기존 접근법의 한계를 극복하고, 사용자의 요구에 따라 동적으로 정의가 변하는 오픈 월드 환경을 해결하는 중요한 전환점을 제시합니다.

실용성: 병원, 공장, 교통 시설 등 다양한 환경에서 정책이나 상황에 따라 '위험'의 기준이 달라지는 실제 적용 시나리오에 직접적으로 대응 가능합니다.
기술적 진보: 텍스트 프롬프트를 통해 모델의 행동을 제어할 수 있는 언어 기반 VAD 의 가능성을 열었으며, 대규모 고품질 데이터셋 (PreVAD) 을 통해 향후 연구의 기준을 마련했습니다.
효율성: 거대한 LLM 을 직접 파인튜닝하는 고비용 방식이 아닌, 약한 감독과 효율적인 정규화 기법을 통해 경량화된 모델로 높은 성능을 달성했다는 점에서 실용적입니다.

결론적으로, LaGoVAD 는 오픈 월드 환경에서 발생하는 개념 드리프트 문제를 언어 기반 인터페이스와 데이터 중심의 접근법으로 성공적으로 해결한 선구적인 연구로 평가됩니다.