No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

이 논문은 실제 이상 데이터 없이 segmented 객체를 의사-이상으로 변환하고 멀티모달 대규모 언어 모델 (MLLM) 을 활용하여 오픈 월드 환경에서 최첨단 성능을 달성하는 제로샷 비디오 이상 탐지 프레임워크인 LAVIDA 를 제안합니다.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 기존 방식의 문제점: "치과 의사"의 한계

기존의 이상 탐지 AI 들은 마치 오직 '충치'만 본 치과 의사와 같습니다.

  • 학습 방식: 의사 (AI) 는 수많은 충치 (이상 데이터) 사진을 보고 공부합니다.
  • 한계: 만약 환자가 "치아가 아닌 잇몸이 붓는 병"이나 "이전엔 본 적 없는 새로운 치아 질환"을 가지고 오면, 이 의사는 당황해서 "이건 내가 배운 게 아니니 모릅니다"라고 말합니다.
  • 실제 문제: 기존 AI 는 훈련 데이터에 있는 특정 상황 (예: 지하철 안의 싸움) 만 알고, 새로운 상황 (예: 공원의 폭력) 이나 새로운 이상 유형이 나오면 전혀 못 찾아냅니다.

2. LAVIDA 의 혁신: "유치원 선생님"의 눈

LAVIDA 는 **세상의 모든 사물을 알고 있는 '유치원 선생님'**처럼 작동합니다. 이 선생님은 치과 의사가 아닙니다. 대신, **세상 모든 동물, 사물, 상황을 알고 있는 '대백과사전 (MLLM, 멀티모달 대형 언어 모델)'**을 옆에 두고 있습니다.

핵심 아이디어 3 가지

① 이상 데이터가 없어도 된다? (Anomaly Exposure Sampler)

  • 비유: LAVIDA 는 실제 '싸움'이나 '폭력' 영상을 하나도 보지 않고도 훈련합니다. 대신, 동물원이나 자연 다큐멘터리 영상을 가져옵니다.
  • 방법: "이 영상에서 '코끼리'가 이상해!"라고 가르칩니다. 사실 코끼리는 정상인데, AI 에게는 "코끼리가 여기 있으면 이상한 거야"라고 가르치는 것입니다.
  • 효과: AI 는 "아, 내가 본 적 없는 것 (코끼리) 이 갑자기 나타나는 게 이상한 거구나"라는 논리를 깨닫게 됩니다. 그래서 나중에 실제 폭력이나 사고가 일어나도, "이건 내가 배운 '이상한 것'이네!"라고 바로 알아챕니다. 실제 범죄 데이터 없이도 범죄를 찾아내는 마법입니다.

② 세상의 모든 것을 아는 '대백과사전' (MLLM)

  • 비유: 기존 AI 는 "싸움"이라는 단어만 알면 "싸움"만 찾습니다. 하지만 LAVIDA 는 "폭력", "상처", "도망치는 것", "화재" 등 수만 가지 개념을 언어로 이해합니다.
  • 효과: 만약 훈련 데이터에 '폭탄'이 없어도, AI 는 "폭탄은 위험하고 이상한 거야"라는 언어적 지식을 통해 폭탄이 터지는 장면을 즉시 감지할 수 있습니다. 상황을 문맥으로 이해하는 것입니다.

③ 잡음 제거와 초점 맞추기 (Token Compression)

  • 비유: 비디오는 보통 배경 (하늘, 건물, 나무) 이 99% 를 차지하고, 이상한 사건은 1% 만 차지합니다. 기존 AI 는 배경까지 다 분석하려다 지쳐버립니다.
  • 방법: LAVIDA 는 **"배경은 무시하고, 이상한 것만 쏙쏙 골라내는 필터"**를 씁니다.
  • 효과: 컴퓨터가 처리해야 할 정보량이 급격히 줄어들어, 더 빠르고 정확하게 이상한 부분만 집중해서 찾아냅니다.

3. 왜 이것이 중요한가요? (결론)

이 기술은 **"알 수 없는 미래의 위험"**을 대비하게 해줍니다.

  • 기존: "우리가 배운 범죄 유형 A, B, C 만 찾아냅니다."
  • LAVIDA: "우리는 어떤 종류의 이상한 일이든, 어떤 장소에서든 찾아낼 수 있습니다. 왜냐하면 우리는 '이상함'의 개념을 이해하기 때문입니다."

한 줄 요약:

LAVIDA 는 실제 범죄 영상을 하나도 보지 않고도, 세상의 모든 사물을 아는 언어 모델논리적 훈련을 통해, 어떤 새로운 위험이든 실시간으로 찾아내는 초능력 CCTV를 만든 것입니다.

이 시스템은 이미 여러 테스트에서 기존 최고 기술 (SOTA) 보다 훨씬 뛰어난 성능을 보여주며, 실제 세상의 다양한 위험으로부터 우리를 보호할 수 있는 가능성을 열었습니다.