Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

Deze paper introduceert LAS-VAD, een nieuw raamwerk voor zwak toezicht op videonanomaliedetectie dat anomalie-verbonden componenten, intentie-herkenning en attribuutinformatie combineert om semantische ambiguïteiten op te lossen en de prestaties aanzienlijk te verbeteren op de XD-Violence en UCF-Crime-datasets.

Yu Wang, Shengjie Zhao

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme berg videomateriaal hebt van bewakingscamera's: duizenden uren aan beelden van straten, winkels en parken. Je wilt weten: "Waar gebeurt er iets raars?" Bijvoorbeeld een vechtpartij, een explosie of diefstal.

Het probleem? Je hebt geen tijd om elke seconde van elke video te bekijken en te markeren: "Hier begint de diefstal, hier eindigt hij." Dat is te duur en te veel werk. Je hebt alleen een simpele label: "Deze hele video bevat een misdrijf." Dit noemen we zwakke supervisie.

De onderzoekers van dit paper (LAS-VAD) hebben een slimme oplossing bedacht om computers te leren wat "raar" is, zelfs zonder die gedetailleerde labels. Ze gebruiken drie creatieve trucs:

1. De "Groepeer-de-Vrienden" Truc (Anomaly-Connected Components)

Stel je voor dat je een groep mensen op een feestje hebt. Je weet niet precies wie wat doet, maar je ziet dat mensen die lachen en dansen vaak dicht bij elkaar staan en dezelfde bewegingen maken. Mensen die ruzie maken, staan ook dicht bij elkaar, maar hun bewegingen zijn anders dan die van de dansers.

De computer doet hetzelfde met videoframes (de losse plaatjes van de video).

  • Hoe het werkt: De computer kijkt naar elke frame en vraagt: "Wie lijkt het meest op jou?" Als frame A lijkt op frame B, en B op C, dan groepeert de computer ze samen in één "clubje".
  • Het resultaat: Alle frames in één clubje delen dezelfde betekenis. Als één frame in dat clubje een explosie is, dan zijn waarschijnlijk alle frames in dat clubje ook explosies. Zo leert de computer wat een explosie is, zonder dat iemand het handmatig heeft gemarkeerd.

2. De "Motief-Detecteur" (Intention Reasoning)

Soms zien normale en rare gedragingen er bijna hetzelfde uit.

  • Voorbeeld: Iemand pakt een appel uit een fruitmand (normaal) vs. iemand steelt een appel (raar).
  • Het probleem: Voor een camera zien ze er hetzelfde uit: een hand grijpt een appel.
  • De oplossing: De computer kijkt niet alleen naar wat er gebeurt, maar naar hoe en waarom.
    • Bij het normaal pakken van een appel is de beweging rustig en traag.
    • Bij stelen is de beweging plotseling, snel en angstig.
      De computer leert deze "intentie" te onderscheiden door te kijken naar de snelheid en versnelling van de beweging. Het is alsof je niet alleen kijkt naar het woord "pakken", maar ook naar de toon van stem en de snelheid waarmee iemand het zegt.

3. De "Recept-Truc" (Anomaly Attributes)

Elk misdrijf heeft zijn eigen kenmerken, net als een recept.

  • Een explosie heeft altijd: vuur, rook en vliegende puin.
  • Een overval heeft vaak: een masker en een wapen.

De onderzoekers gebruiken een slimme taalcomputer (een AI die tekst begrijpt) om voor elk misdrijf een lijstje met kenmerken te maken. De videocomputer gebruikt deze lijstjes als een "recept" om te controleren of wat hij ziet wel past bij het misdrijf. Zie je rook en vuur? Dan is de kans groot dat het een explosie is, zelfs als de beweging vaag is.

Waarom is dit zo goed?

Tot nu toe waren computers vaak verward. Ze dachten dat snel rennen altijd "raar" was, of ze zagen een vechtpartij niet omdat de beelden te snel waren.

Met deze nieuwe methode (LAS-VAD) kan de computer:

  1. Groeperen: "Ah, deze 50 plaatjes horen bij elkaar, ze zijn allemaal een vechtpartij."
  2. Begrijpen: "Deze persoon pakt iets, maar hij doet het te snel en te agressief. Dat is diefstal, niet gewoon pakken."
  3. Controleren: "Ik zie vlammen en rook. Dat past bij een explosie."

Het resultaat: De computer wordt veel slimmer in het vinden van misdrijven in onbewerkte video's, zonder dat mensen duizenden uren nodig hebben om alles handmatig te labelen. Het is alsof je een bewakingsagent hebt die niet alleen kijkt, maar ook echt begrijpt wat er aan de hand is.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →