Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Each language version is independently generated for its own context, not a direct translation.

Titel: Zijn slimme camera's met een 'spraakgeest' klaar voor de bewaking? Een eerlijke check.

Stel je voor dat je een nieuwe, super-intelligente bewakingscamera hebt. Deze camera is niet alleen een lens, maar heeft een spraakgeest (een Multimodal Large Language Model of MLLM) in zijn hoofd. Hij kan niet alleen kijken, maar ook praten en redeneren over wat hij ziet.

De onderzoekers van deze paper wilden weten: Kan zo'n slimme 'spraakgeest' echt betrouwbaar zijn om gevaar te zien in een drukke stad, of blijft hij maar in zijn stoel zitten en doet hij alsof er niets aan de hand is?

Hier is de uitleg, vertaald naar alledaags taal met een paar leuke vergelijkingen:

1. Het Probleem: De "Niet-het-worstelende" Camera

Vroeger waren bewakingscamera's als een automatische alarmbel. Als iemand een raam brak, ging het alarm af. Maar die systemen waren dom; ze zagen alleen beweging, niet intentie.

De nieuwe systemen met "spraakgeest" zijn als een slimme detective die je een filmpje laat zien en vraagt: "Zie jij hier iets raars?"

De verwachting: De detective kijkt naar het filmpje, denkt na over de context (is het een park of een bank?), en schreeuwt: "Aandacht! Die man rent weg met een tas!"
De realiteit: De onderzoekers ontdekten dat deze detectives in het begin extreem bang zijn om fouten te maken. Ze zijn zo voorzichtig dat ze bijna nooit iets melden.

2. De "Bang-om-fouten-maken" Bias

Stel je voor dat je een detective hebt die zo bang is om onschuldig iemand te beschuldigen, dat hij liever niets ziet dan dat hij een fout maakt.

Als er echt iets mis is (bijvoorbeeld iemand die steelt), zegt de detective: "Nee, dat ziet er normaal uit."
Als er niets mis is, zegt hij: "Ja, dat is normaal."

Dit noemen de onderzoekers een "conservatieve bias". De camera is zo'n 100% zeker als hij zegt dat er niets mis is, maar hij mist 95% van de echte misdaden. In de bewaking is dat een ramp: je wilt liever een vals alarm hebben dan een echte inbraak missen!

3. De Oplossing: De "Specifieke Instructie"

De onderzoekers probeerden de detective te helpen door hem duidelijkere instructies te geven.

Slecht advies: "Kijk naar dit filmpje. Is er iets raars?" (De detective denkt: "Wat is raars? Een rennende hond? Een vallende bal? Ik weet het niet, ik zeg maar nee.")
Goed advies: "Kijk specifiek naar mensen die stelen, vechten of wegrennen. Als je dat ziet, schreeuw 'JA'!"

Het resultaat was verbluffend:
Zodra ze de detective vertelden waar hij precies naar moest kijken (bijvoorbeeld: "let op diefstal"), ging zijn prestatie van 0 naar een 6. Hij begon plotseling wel dingen te zien!

De les: De camera zag het beeld al prima, maar hij had geen moed om te zeggen dat het "raar" was, tenzij je hem heel duidelijk vertelde wat "raar" betekent.

4. De "Korte vs. Lange" Film

Ze keken ook of het helpt om kortere of langere stukjes video te tonen (1 seconde vs. 3 seconden).

Vergelijking: Is het makkelijker om een dief te zien als je een flits van 1 seconde ziet, of een kleine scène van 3 seconden?
Het resultaat: Bij de ene dataset (ShanghaiTech) hielp een langer filmpje (3 sec) de detective om de context te begrijpen. Bij de andere, complexere dataset (CHAD) hielp het niet echt. Soms was zelfs een kort filmpje beter, omdat een lang filmpje te veel "ruis" (achtergrondgeluid en onbelangrijke details) bevatte.

5. De Conclusie: Niet Klaar voor de Straat

De grote boodschap van dit papier is:
De technologie is er, maar ze is nog niet klaar voor de echte wereld.

De "spraakgeest" camera's zijn geweldig in het begrijpen van films en verhalen, maar in de bewaking zijn ze nog te luie en te voorzichtig. Ze zijn als een slaapverwekkende bewaker die alleen wakker wordt als je heel hard schreeuwt en precies vertelt wat hij moet doen.

Wat moet er gebeuren?
Om deze systemen echt bruikbaar te maken, moeten we niet alleen betere camera's bouwen, maar vooral beter leren hoe we ze moeten instrueren. We moeten hen leren om niet bang te zijn om een waarschuwing te geven, zelfs als ze niet 100% zeker zijn.

Kort samengevat:
De slimme camera's zijn als een geniale, maar extreem verlegen student. Als je ze vraagt "Is er iets mis?", zeggen ze "Nee". Maar als je zegt "Kijk specifiek naar diefstal", worden ze plotseling een topdetective. De kunst is om de juiste vragen te stellen.

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

1. Het Probleem: De "Niet-het-worstelende" Camera

2. De "Bang-om-fouten-maken" Bias

3. De Oplossing: De "Specifieke Instructie"

4. De "Korte vs. Lange" Film

5. De Conclusie: Niet Klaar voor de Straat

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

1. Het Probleem: De "Niet-het-worstelende" Camera

2. De "Bang-om-fouten-maken" Bias

3. De Oplossing: De "Specifieke Instructie"

4. De "Korte vs. Lange" Film

5. De Conclusie: Niet Klaar voor de Straat

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search