No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

LAVIDA is een end-to-end zero-shot framework voor video-anomaliedetectie dat gebruikmaakt van een Multimodal Large Language Model en een Anomaly Exposure Sampler om pseudo-anomalieën te genereren, waardoor het zonder echte trainingsdata state-of-the-art prestaties bereikt op diverse benchmarks.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🎬 De "Superheld" die nooit heeft geoefend: LAVIDA

Stel je voor dat je een veiligheidsagent bent die een filmstudio bewaakt. Je taak is om te zien of er iets raars gebeurt, zoals een brand, een vechtpartij of een diefstal.

🚧 Het oude probleem: De "Gespecialiseerde Agent"

Tot nu toe waren de slimme camera's (de oude modellen) als agenten die alleen één specifieke film hebben gezien.

  • Als ze in de training alleen films zagen waarin mensen fietsen en fietsen plotseling verboden was, leerden ze dat fietsen "raar" is.
  • Maar als er ineens iemand een roket lanceert in de studio, weten ze niet wat ze moeten doen. Ze zeggen: "Ik heb dat nog nooit gezien, dus het is normaal."
  • Ze kunnen niet "out of the box" denken. Ze zijn vastgelopen in hun training.

🦸‍♂️ De nieuwe oplossing: LAVIDA (De "Alles-kunnende" Agent)

De onderzoekers van dit paper hebben LAVIDA bedacht. Dit is een nieuw systeem dat werkt als een slimme agent die een enorme bibliotheek heeft gelezen, maar nooit een echte film van een misdrijf heeft gezien.

Hoe doet hij dat? Hij gebruikt drie magische trucs:

1. De "Valse Misdaden" Trainer (Anomaly Exposure Sampler)
In plaats van echte misdaden te laten zien (die zeldzaam zijn), maakt LAVIDA valse misdaden met een trucje.

  • De analogie: Stel je voor dat je een agent traint door hem een foto van een paradijsvogel te geven en te zeggen: "Dit is een gevaarlijk monster." Dan geef je hem een foto van een auto en zeg je: "Dit is ook een monster."
  • De agent leert niet wat een monster is, maar leert het concept van "iets dat niet thuishoort".
  • Door duizenden verschillende objecten (vogels, auto's, honden) te laten zien als "mogelijke verdachten", leert het systeem dat elk object in de verkeerde situatie verdacht kan zijn. Zo is hij klaar voor elk nieuw scenario zonder dat hij ooit een echte vechtpartij heeft gezien.

2. De "Super-Vertaler" (MLLM - Multi-modal Large Language Model)
LAVIDA heeft een slimme vertaler (een Large Language Model) aan boord die alles begrijpt.

  • De analogie: Normale camera's kijken alleen naar pixels (kleurtjes). LAVIDA's vertaler kijkt naar de betekenis.
  • Als de camera ziet: "Een man rent weg", denkt de vertaler: "Ah, dat is normaal als hij op tijd wil zijn, maar raar als hij een tas steelt."
  • Omdat deze vertaler is getraind op de hele wereld (via internet), begrijpt hij context. Hij weet dat een explosie in een fabriek anders is dan een explosie in een kinderfeestje. Hij snapt de nuance zonder dat hij het ooit heeft gezien.

3. De "Schermverkleiner" (Token Compression)
Video's zijn enorm groot en bevatten veel "ruis" (de achtergrond, de lucht, de muren).

  • De analogie: Stel je voor dat je een boek moet lezen, maar 90% van de pagina's is volgeschreven met "leegte". Het kost je veel tijd om daar doorheen te bladeren.
  • LAVIDA gebruikt een schrappertje dat de saaie achtergrond weglaat en alleen de belangrijke stukjes (de verdachte objecten) overhoudt.
  • Dit maakt het systeem veel sneller en goedkoper, omdat het zich niet hoeft te verdiepen in de lucht of de straten, maar alleen in de actie.

🏆 Wat levert dit op?

Omdat LAVIDA is getraind op deze slimme manier:

  • Hij kan alles detecteren, van een vechtpartij tot een vallende ladder, zelfs als hij die specifieke situatie nooit heeft gezien.
  • Hij werkt in elke omgeving: van een drukke straat tot een stille fabriek.
  • Hij is sneller en goedkoper dan de oude systemen omdat hij de achtergrond negeert.

Kortom:
De oude systemen waren als een hond die alleen op een bal reageert. Als je een bal gooit, jaagt hij erachteraan. Als je een bal gooit, doet hij niets.
LAVIDA is als een menselijke agent die begrijpt waarom iets raar is. Hij heeft nooit een echte misdaad gezien, maar door de "valse" training en de slimme vertaler, kan hij elk nieuw, onbekend gevaar herkennen alsof hij het al duizend keer heeft meegemaakt.

Dit is de toekomst van slimme beveiliging: niet leren door te zien, maar leren door te begrijpen.