Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een bewakingscamera hebt die de hele dag een drukke straat of een voetgangersoversteekplaats filmt. Normaal gesproken zien we hier mensen die wandelen, fietsers die voorbijrijden en auto's die stoppen bij het stoplicht. Alles is voorspelbaar.

Maar wat als er iets vreemds gebeurt? Bijvoorbeeld: iemand duwt een grote doos over de stoep terwijl er iemand in zit, of een hond loopt zonder leiband en een eigenaar. Voor een mens is dit duidelijk raar, maar voor een traditionele computer is het lastig. De computer ziet alleen pixels en beweging, maar begrijpt niet wat er gebeurt of waarom het raar is.

Deze paper introduceert een slimme nieuwe manier om dit op te lossen, met behulp van een AI die kan "praten" en "zien".

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het probleem: De computer is te "dom" om verbanden te zien

Oude methoden kijken naar de video alsof het een stroom van pixels is. Ze proberen te voorspellen wat er volgende gebeurt. Als de computer niet weet wat er gebeurt, denkt hij: "Oh, dit is raar!"
Het probleem is dat deze oude systemen vaak niet weten waarom het raar is. Ze kunnen ook niet goed zien als twee objecten met elkaar interageren (zoals een persoon die een auto blokkeert). Ze missen de "context".

2. De oplossing: De vertaler die een dagboek bijhoudt

De auteurs van dit onderzoek hebben een slimme truc bedacht. Ze gebruiken een Multimodal Large Language Model (MLLM). Dit is een super-intelligente AI die zowel beelden als taal begrijpt (zoals een zeer slimme vertaler).

In plaats van de computer te laten gissen of er iets mis is, laten we de AI een dagboek bijhouden van wat er normaal gebeurt.

De Analogie: Stel je voor dat je een nieuwe stad binnenkomt. Je wilt weten wat "normaal" is. Je vraagt niet aan een robot: "Is dat raar?", maar je vraagt aan een lokale gids: "Wat doen die mensen daar?"
- De gids (de AI) kijkt naar twee beelden die één seconde uit elkaar liggen.
- Hij zegt: "Twee mensen lopen naast elkaar over de oversteekplaats, zonder elkaar aan te raken."
- Hij doet dit voor duizenden momenten in de normale video.

3. Het "Normaal"-archief (De Referentie)

De computer verzamelt al deze beschrijvingen in een archief. Dit is het exemplaar-archief.

Het archief bevat zinnen als: "Iemand loopt over het gras."
Of: "Een fiets rijdt langs de stoep."

De computer leert niet door duizenden uren video te "kijken" in de zin van pixels analyseren, maar door te leren wat de taal van een normale dag is. Het is alsof je een woordenboek maakt van "normaal gedrag".

4. Het detecteren van anomalieën: Het "Raar"-alarm

Nu komt de test. Er gebeurt iets vreemds op de camera.

De AI kijkt naar de nieuwe beelden.
De gids (AI) beschrijft wat hij ziet: "Een persoon zit in een grote doos en wordt door iemand anders geduwd."

De computer vergelijkt deze nieuwe zin met zijn archief van "normale zinnen".

Is "Iemand in een doos worden geduwd" te vergelijken met "Iemand loopt over het gras"? Nee.
De afstand tussen deze twee zinnen is enorm.
Conclusie: Dit is een anomalie!

5. Waarom is dit zo speciaal? (De "Uitleg")

Dit is het coolste deel: Uitlegbaarheid.
Bij oude systemen krijg je alleen een rood vierkantje op het scherm: "Hier is iets raars." Maar waarom? Geen idee.
Bij dit nieuwe systeem krijg je een uitleg:

"Dit is raar, omdat we normaal gesproken mensen zien lopen, maar hier zien we iemand die in een doos wordt geduwd."

Het is alsof de computer niet alleen roept "Brand!", maar ook zegt: "Brand, omdat er een kaars omver is gevallen." Dit maakt het veel makkelijker voor een menselijke bewaker om te beslissen of het echt gevaarlijk is.

6. Wat hebben ze ontdekt?

De onderzoekers hebben dit getest op verschillende datasets:

ComplexVAD: Een dataset vol met rare interacties (zoals de doos-voorbeelden). Hier deed hun systeem het fantastisch, veel beter dan de oude methoden.
Andere datasets: Zelfs op datasets zonder complexe interacties (gewone mensen die rennen) deed het systeem het goed, vooral als ze het combineerden met andere slimme methoden.

Samenvatting in één zin

In plaats van een computer te laten gissen wat er mis is met een video, laten we een slimme AI een dagboek van normaal gedrag schrijven in mensentaal; als er iets gebeurt dat niet in dat dagboek past, weet de computer precies wat er mis is en kan hij het uitleggen.

Dit maakt bewaking niet alleen slimmer, maar ook begrijpelijker voor mensen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande methoden voor semi-supervised video-anomalie detectie (VAD) kampen met twee belangrijke beperkingen:

Moeilijkheid bij complexe interacties: Veel methoden hebben moeite om anomalieën te detecteren die voortkomen uit complexe interacties tussen objecten (bijvoorbeeld een persoon die op een auto zit of een hond die zonder leiband loopt), in plaats van alleen afwijkende bewegingen van individuele objecten.
Gebrek aan verklaarbaarheid (Explainability): Bestaande systemen geven vaak alleen een waarschuwing zonder tekstuele uitleg over waarom een gebeurtenis als abnormaal wordt beschouwd. Bestaande "verklaarbare" methoden interpreteren vaak alleen input-features, maar bieden geen directe, natuurlijke taal-uitvoer.

Het paper richt zich op de semi-supervised, single-scene VAD-taak, waarbij het model alleen wordt getraind op "normale" video's van een specifieke locatie en moet leren afwijkingen te detecteren in testvideo's van dezelfde locatie.

Methodologie: MLLM-EVAD

De auteurs stellen een nieuw raamwerk voor, genaamd MLLM-EVAD (Multimodal Large Language Model-based Explainable Video Anomaly Detection). In plaats van direct een oordeel te vellen over een frame, bouwt het systeem een semantisch model van "normaal gedrag" op basis van tekstuele beschrijvingen.

Het proces verloopt als volgt:

Objectdetectie en Tracking:
- Een objectdetector (Detectron2) en tracker (ByteTrack) worden gebruikt om objecten in de video te identificeren en hun trajecten te volgen.
- Objecten worden gepaard op basis van hun ruimtelijke nabijheid (geschatte 3D-afstand) om potentiële interacties te identificeren. Ook worden losse objecten apart behandeld.
Generatie van Tekstuele Beschrijvingen (MLLM):
- Voor elk paar objecten (of enkelvoudig object) worden twee frames genomen: het huidige frame ( $t$ ) en een toekomstig frame ( $t + \Delta$ , bijvoorbeeld 30 frames later).
- Deze frames worden ingesloten in crop-gebieden rond de objecten en aan een Multimodal Large Language Model (MLLM) (zoals GPT-4o of Gemma 3) gepresenteerd.
- De prompt vraagt het model om kort te beschrijven wat de objecten doen en of er interactie is. Het model genereert een natuurlijke taalzin (bijv. "Twee personen lopen naast elkaar over het zebrapad zonder te interageren").
Modellering van Normaal Gedrag (Exemplar Selection):
- De gegenereerde zinnen worden omgezet in vectorrepresentaties (sentence embeddings) met behulp van een tekst-encoder (Sentence-BERT).
- Een exemplar-selectie-algoritme wordt toegepast op de embeddings uit de trainingsvideo's. Dit algoritme selecteert een compacte subset van representatieve zinnen door redundante (nabije) beschrijvingen te verwijderen.
- Het resultaat is twee verzamelingen van "exemplaren": één voor object-paren (interacties) en één voor enkelvoudige objecten. Deze vormen het model van normaal gedrag.
Anomalie Detectie:
- Tijdens de testfase worden nieuwe beschrijvingen gegenereerd en omgezet in embeddings.
- De anomalie-score wordt berekend op basis van de afstand (cosine dissimilariteit) tussen de test-embedding en de dichtstbijzijnde exemplaar in de trainingsverzameling.
- Een hoge score (grote afstand) duidt op een afwijking van het normale semantische patroon, wat een anomalie is.
Integratie met Bestaande Methoden:
- Het systeem kan worden gecombineerd met traditionele, op features gebaseerde VAD-methoden (zoals Scene-Graph of Tracklet-methoden) om zowel hoge-level semantische als lage-level fysische features (snelheid, richting) te benutten.

Belangrijkste Bijdragen

Eerste MLLM-benadering voor interactie-gebaseerde VAD: Het is de eerste methode die specifiek is ontworpen om complexe anomalieën te detecteren die voortkomen uit object-interacties in een semi-supervised setting.
Nieuw gebruik van MLLM: In tegenstelling tot eerdere werken die MLLM's gebruiken om direct een anomalie te classificeren, gebruikt deze methode MLLM's om een representatie van normaliteit te bouwen. Anomalieën worden gedetecteerd door afwijkingen van deze semantische representatie.
Ingebouwde Verklaarbaarheid: Het systeem levert direct een tekstuele uitleg voor elke gedetecteerde anomalie door de afwijkende beschrijving te vergelijken met de dichtstbijzijnde "normale" beschrijving.
Ruimtelijke en Temporele Lokalisatie: Door object-paren te analyseren, kan het systeem niet alleen wanneer maar ook waar (welke objecten) de anomalie plaatsvindt.

Resultaten

De methode is geëvalueerd op drie benchmark datasets: ComplexVAD, Avenue en Street Scene.

ComplexVAD (Interactie-gebaseerd):
- MLLM-EVAD presteerde beter dan de bestaande state-of-the-art (Scene-Graph) op alle drie de evaluatiemetrics (RBDC, TBDC en Frame-level).
- De combinatie van MLLM-EVAD met de Scene-Graph methode behaalde de beste scores: 25% RBDC, 70% TBDC en 63% Frame-level AUC.
- Gemma 3 presteerde iets beter dan GPT-4o, waarschijnlijk vanwege gedetailleerdere beschrijvingen van interacties.
Avenue en Street Scene:
- Hoewel deze datasets minder interactie-gebaseerde anomalieën bevatten, verbeterde de combinatie van MLLM-EVAD met de Tracklet-EVAL methode de bestaande state-of-the-art resultaten, vooral op de ruimtelijke metrics (RBDC en TBDC).
Kwalitatieve Evaluatie:
- Menselijke evaluatoren beoordeelden de gegenereerde uitleggen als zeer informatief (gemiddelde score 3.8/5), wat dicht bij menselijke annotaties lag. Dit bevestigt de interpretabiliteit van het systeem.

Betekenis en Toekomstperspectief

Dit werk markeert een verschuiving in video-anomalie detectie van pixel-gebaseerde modellen naar semantische, taal-gedreven modellen.

Interpretatie: Het biedt een oplossing voor het "black-box" probleem van diepe leermodellen door menselijke taal te gebruiken als tussenlaag.
Toepasbaarheid: Het is bijzonder waardevol voor beveiligingsscenario's waar complexe situaties (zoals vandalisme of ongebruikelijke interacties) moeten worden opgemerkt.
Beperkingen: De huidige implementatie is rekentechnisch zwaar en niet geschikt voor real-time verwerking vanwege de latentie van grote MLLM's. Toekomstig onderzoek richt zich op het fine-tunen van kleinere, efficiëntere modellen en het creëren van datasets met ground-truth tekst voor betere kwantitatieve evaluatie van verklaarbaarheid.

Kortom, de paper demonstreert dat het combineren van object-tracking met multimodal taalmodellen een krachtige, nieuwe richting is voor het detecteren en verklaren van complexe video-anomalieën.

Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

1. Het probleem: De computer is te "dom" om verbanden te zien

2. De oplossing: De vertaler die een dagboek bijhoudt

3. Het "Normaal"-archief (De Referentie)

4. Het detecteren van anomalieën: Het "Raar"-alarm

5. Waarom is dit zo speciaal? (De "Uitleg")

6. Wat hebben ze ontdekt?

Samenvatting in één zin

Probleemstelling

Methodologie: MLLM-EVAD

Belangrijkste Bijdragen

Resultaten

Betekenis en Toekomstperspectief

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation