Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Deze paper presenteert een nieuwe semi-supervised methode voor video-anomaliedetectie die Multimodal Large Language Models gebruikt om tekstuele beschrijvingen van objectinteracties te genereren, waardoor zowel complexe interactie-anomalies effectief worden gedetecteerd als de interpretatie van de resultaten wordt verbeterd.

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een bewakingscamera hebt die de hele dag een drukke straat of een voetgangersoversteekplaats filmt. Normaal gesproken zien we hier mensen die wandelen, fietsers die voorbijrijden en auto's die stoppen bij het stoplicht. Alles is voorspelbaar.

Maar wat als er iets vreemds gebeurt? Bijvoorbeeld: iemand duwt een grote doos over de stoep terwijl er iemand in zit, of een hond loopt zonder leiband en een eigenaar. Voor een mens is dit duidelijk raar, maar voor een traditionele computer is het lastig. De computer ziet alleen pixels en beweging, maar begrijpt niet wat er gebeurt of waarom het raar is.

Deze paper introduceert een slimme nieuwe manier om dit op te lossen, met behulp van een AI die kan "praten" en "zien".

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het probleem: De computer is te "dom" om verbanden te zien

Oude methoden kijken naar de video alsof het een stroom van pixels is. Ze proberen te voorspellen wat er volgende gebeurt. Als de computer niet weet wat er gebeurt, denkt hij: "Oh, dit is raar!"
Het probleem is dat deze oude systemen vaak niet weten waarom het raar is. Ze kunnen ook niet goed zien als twee objecten met elkaar interageren (zoals een persoon die een auto blokkeert). Ze missen de "context".

2. De oplossing: De vertaler die een dagboek bijhoudt

De auteurs van dit onderzoek hebben een slimme truc bedacht. Ze gebruiken een Multimodal Large Language Model (MLLM). Dit is een super-intelligente AI die zowel beelden als taal begrijpt (zoals een zeer slimme vertaler).

In plaats van de computer te laten gissen of er iets mis is, laten we de AI een dagboek bijhouden van wat er normaal gebeurt.

  • De Analogie: Stel je voor dat je een nieuwe stad binnenkomt. Je wilt weten wat "normaal" is. Je vraagt niet aan een robot: "Is dat raar?", maar je vraagt aan een lokale gids: "Wat doen die mensen daar?"
    • De gids (de AI) kijkt naar twee beelden die één seconde uit elkaar liggen.
    • Hij zegt: "Twee mensen lopen naast elkaar over de oversteekplaats, zonder elkaar aan te raken."
    • Hij doet dit voor duizenden momenten in de normale video.

3. Het "Normaal"-archief (De Referentie)

De computer verzamelt al deze beschrijvingen in een archief. Dit is het exemplaar-archief.

  • Het archief bevat zinnen als: "Iemand loopt over het gras."
  • Of: "Een fiets rijdt langs de stoep."

De computer leert niet door duizenden uren video te "kijken" in de zin van pixels analyseren, maar door te leren wat de taal van een normale dag is. Het is alsof je een woordenboek maakt van "normaal gedrag".

4. Het detecteren van anomalieën: Het "Raar"-alarm

Nu komt de test. Er gebeurt iets vreemds op de camera.

  • De AI kijkt naar de nieuwe beelden.
  • De gids (AI) beschrijft wat hij ziet: "Een persoon zit in een grote doos en wordt door iemand anders geduwd."

De computer vergelijkt deze nieuwe zin met zijn archief van "normale zinnen".

  • Is "Iemand in een doos worden geduwd" te vergelijken met "Iemand loopt over het gras"? Nee.
  • De afstand tussen deze twee zinnen is enorm.
  • Conclusie: Dit is een anomalie!

5. Waarom is dit zo speciaal? (De "Uitleg")

Dit is het coolste deel: Uitlegbaarheid.
Bij oude systemen krijg je alleen een rood vierkantje op het scherm: "Hier is iets raars." Maar waarom? Geen idee.
Bij dit nieuwe systeem krijg je een uitleg:

"Dit is raar, omdat we normaal gesproken mensen zien lopen, maar hier zien we iemand die in een doos wordt geduwd."

Het is alsof de computer niet alleen roept "Brand!", maar ook zegt: "Brand, omdat er een kaars omver is gevallen." Dit maakt het veel makkelijker voor een menselijke bewaker om te beslissen of het echt gevaarlijk is.

6. Wat hebben ze ontdekt?

De onderzoekers hebben dit getest op verschillende datasets:

  • ComplexVAD: Een dataset vol met rare interacties (zoals de doos-voorbeelden). Hier deed hun systeem het fantastisch, veel beter dan de oude methoden.
  • Andere datasets: Zelfs op datasets zonder complexe interacties (gewone mensen die rennen) deed het systeem het goed, vooral als ze het combineerden met andere slimme methoden.

Samenvatting in één zin

In plaats van een computer te laten gissen wat er mis is met een video, laten we een slimme AI een dagboek van normaal gedrag schrijven in mensentaal; als er iets gebeurt dat niet in dat dagboek past, weet de computer precies wat er mis is en kan hij het uitleggen.

Dit maakt bewaking niet alleen slimmer, maar ook begrijpelijker voor mensen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →