Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Each language version is independently generated for its own context, not a direct translation.

Das große Experiment: Können KI-„Augen" wirklich aufpassen?

Stellen Sie sich vor, Sie stellen einen extrem intelligenten, aber sehr vorsichtigen Wachmann an die Tür eines Parks. Dieser Wachmann ist ein Multimodales Großes Sprachmodell (MLLM). Das ist eine super-intelligente KI, die nicht nur Bilder sieht, sondern sie auch „verstehen" und beschreiben kann. Sie hat Millionen von Büchern gelesen und unzählige Filme gesehen.

Die Forscher von der University of North Carolina wollten herausfinden: Kann dieser super-intelligente Wachmann wirklich Anomalien (also verdächtige Dinge) in echten Überwachungskameras erkennen?

1. Das Problem: Der „zu vorsichtige" Wachmann

Normalerweise arbeiten solche Systeme so: Sie schauen sich etwas an und sagen: „Das sieht normal aus" oder „Das sieht komisch aus".

Aber die Forscher haben eine Überraschung entdeckt: Der KI-Wachmann ist extrem ängstlich.

Die Metapher: Stellen Sie sich vor, Sie gehen durch den Park. Ein Kind rennt. Ein Hund bellt. Ein Mann stolpert.
Die Reaktion der KI: „Oh nein, das ist alles ganz normal! Ich melde nichts!"
Das Ergebnis: Die KI ist zu 100 % sicher, wenn sie sagt „Alles in Ordnung". Aber sie verpasst fast alles, was wirklich verdächtig ist. Sie ist wie ein Wachmann, der lieber 1000 Mal falsch liegt (indem er nichts meldet), als auch nur einmal falsch zu alarmieren.

In der Fachsprache nennen sie das einen „konservativen Bias". Die KI traut sich nicht, eine Entscheidung zu treffen, es sei denn, sie ist sich zu 1000 % sicher. In der echten Welt ist das aber katastrophal, denn wenn ein Einbrecher kommt, wollen wir, dass der Wachmann sofort schreit, auch wenn er sich nicht zu 100 % sicher ist.

2. Der Trick: Wie man den Wachmann weckt

Die Forscher haben etwas Interessantes herausgefunden. Wenn man dem Wachmann einfach nur sagt: „Schau mal, ist da was komisch?", bleibt er stumm.

Aber wenn man ihm ganz konkrete Anweisungen gibt, passiert Magie.

Die Metapher: Statt zu sagen „Pass auf", sagen wir: „Achte besonders auf Leute, die Taschen klauen, oder auf jemanden, der nachts in ein geschlossenes Geschäft klettert."
Das Ergebnis: Plötzlich wird der Wachmann wach! Er erkennt viel mehr. Die Leistung der KI (gemessen an einer Punktzahl, dem „F1-Score") sprang von einem miserablen 0,09 auf ein sehr gutes 0,64.

Das zeigt: Die KI kann die Bilder sehen, aber sie braucht Hilfe bei der Interpretation. Sie braucht einen „Leitfaden", was genau verdächtig ist. Ohne diesen Leitfaden denkt sie, alles sei harmlos.

3. Zeit ist Geld (oder besser: Zeit ist Kontext)

Die Forscher haben auch getestet, wie lange die Videoclips sein müssen, die die KI betrachtet.

1 Sekunde: Wie ein Blitzfoto. Man sieht vielleicht einen Arm, aber nicht, was er tut.
3 Sekunden: Wie ein kurzes Video. Man sieht, wie jemand rennt, stolpert oder etwas wirft.

Das Fazit: Längere Clips helfen der KI meistens, besser zu verstehen, was passiert. Aber es ist kein Wundermittel. Bei sehr komplexen Szenen (wie in der „CHAD"-Datenbank mit hochauflösenden, echten Überwachungsaufnahmen) halfen längere Videos nicht so sehr wie bei einfacheren Szenen. Die KI war immer noch verwirrt, wenn die Umgebung zu laut und chaotisch war.

4. Warum ist das wichtig?

Bisher haben wir KI oft nur in „sauberen" Labors getestet, wo die Bilder klar sind und die Handlungen offensichtlich sind. Aber echte Überwachungskameras sind chaotisch: Es ist dunkel, es regnet, Menschen drängen sich, und die verdächtigen Dinge sind oft sehr subtil.

Die Studie sagt uns: KI ist noch nicht bereit, allein die Welt zu bewachen.
Sie ist wie ein Genie, das aber Angst hat, Fehler zu machen. Wenn wir sie in der echten Welt einsetzen wollen, müssen wir ihr genau sagen, wonach sie suchen soll (durch spezielle Anweisungen/Prompts), und wir müssen lernen, sie so zu programmieren, dass sie auch bei Unsicherheit alarmiert, statt einfach zu schweigen.

Zusammenfassung in einem Satz

Multimodale KIs sind brillante Zuschauer, aber als Wachmänner sind sie noch zu ängstlich; sie brauchen klare Anweisungen darüber, was „verdächtig" ist, sonst ignorieren sie die Gefahr aus Furcht, falsch zu liegen.

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Das große Experiment: Können KI-„Augen" wirklich aufpassen?

1. Das Problem: Der „zu vorsichtige" Wachmann

2. Der Trick: Wie man den Wachmann weckt

3. Zeit ist Geld (oder besser: Zeit ist Kontext)

4. Warum ist das wichtig?

Zusammenfassung in einem Satz

Titel

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Fazit

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Das große Experiment: Können KI-„Augen" wirklich aufpassen?

1. Das Problem: Der „zu vorsichtige" Wachmann

2. Der Trick: Wie man den Wachmann weckt

3. Zeit ist Geld (oder besser: Zeit ist Kontext)

4. Warum ist das wichtig?

Zusammenfassung in einem Satz

Titel

1. Problemstellung

2. Methodik

3. Wichtige Ergebnisse

4. Hauptbeiträge

5. Bedeutung und Fazit

Mehr davon

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics