No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection

Die Arbeit stellt LAVIDA vor, ein Zero-Shot-Framework zur Videoanomalieerkennung, das mittels eines Anomalie-Exposure-Samplers, multimodaler Sprachmodelle und einer Token-Komprimierung auf rein synthetischen Daten trainiert wird und damit in offenen Szenarien state-of-the-art Ergebnisse erzielt.

Zunkai Dai, Ke Li, Jiajia Liu, Jie Yang, Yuanyuan Qiao

Veröffentlicht 2026-03-12
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Sicherheitsbeamter in einem riesigen, sich ständig verändernden Museum. Deine Aufgabe ist es, aufzufallen, wenn etwas falsch läuft – also wenn jemand ein wertvolles Gemälde stiehlt, eine Vase zertrümmert oder wild durch die Gänge rennt.

Das Problem bei den alten Methoden (den "traditionellen Modellen") war, dass sie wie ein starrer Roboter waren. Man hat sie nur trainiert, um genau das zu erkennen, was sie schon gesehen hatten. Wenn du ihnen gezeigt hast: "Das hier ist ein Diebstahl", dann konnten sie nur Diebstähle erkennen. Wenn plötzlich jemand eine Vase explodieren ließ (etwas, das sie nie gesehen hatten), schüttelten sie nur den Kopf und sagten: "Das ist kein Diebstahl, also ist alles okay." Sie waren blind für alles Neue.

LAVIDA ist wie ein super-intelligenter Assistent, der nicht nur Bilder sieht, sondern die Welt wirklich versteht. Hier ist die einfache Erklärung, wie er funktioniert, mit ein paar kreativen Vergleichen:

1. Der Trick mit dem "Pseudo-Verbrechen" (Anomaly Exposure Sampler)

Normalerweise braucht man für das Training von Sicherheitskameras echte Videos von Unfällen oder Verbrechen. Das ist aber selten und schwer zu bekommen.

  • Die alte Methode: Wartet auf echte Unfälle, um zu lernen.
  • Die LAVIDA-Methode: Der Erfinder hat einen genialen Trick angewendet. Er hat dem System Tausende von normalen Bildern gezeigt (z. B. ein Hund, ein Auto, ein Vogel) und gesagt: "Stell dir vor, der Hund ist hier ein 'Verbrechen', weil er nicht hingehört."
  • Die Analogie: Stell dir vor, du trainierst einen Detektiv, indem du ihm Fotos von alltäglichen Dingen zeigst und sagst: "Wenn du einen Elefanten in einer Küche siehst, ist das ein Notfall." Der Detektiv lernt nicht die konkreten Verbrechen, sondern das Konzept des "Falsch-Seins". Er lernt: "Wenn etwas an einem Ort ist, wo es nicht hingehört, ist es verdächtig." So kann er später jedes beliebige neue Verbrechen erkennen, auch wenn er es nie gesehen hat.

2. Der "Super-Gehirn"-Assistent (MLLM)

LAVIDA nutzt eine Multimodale Large Language Model (MLLM). Das ist wie ein sehr gebildeter Bibliothekar, der nicht nur Bilder sieht, sondern auch weiß, was Wörter bedeuten.

  • Die alte Methode: Zählt nur Pixel. "Hier ist Bewegung, also ist es verdächtig."
  • Die LAVIDA-Methode: Der Bibliothekar schaut sich das Video an und denkt: "Okay, hier ist ein Auto. Aber in einem Fußgängerzonen-Bereich? Das ist 'intentional injury' (vorsätzliche Verletzung) oder zumindest 'Anomalous Vehicle Behavior'."
  • Der Vorteil: Er versteht den Kontext. Ein rennender Mensch im Stadion ist normal. Ein rennender Mensch in einer Bibliothek ist ein Alarmfall. LAVIDA versteht diese Nuancen, weil er die Sprache der Welt kennt.

3. Der "Staubsauger" für unnötige Informationen (Token Compression)

Videos sind riesig. Sie bestehen aus Millionen von kleinen Bildteilen (Pixeln), aber das eigentliche "Verbrechen" passiert oft nur an einer kleinen Stelle (z. B. ein Messer in einer Hand). Der Rest des Bildes ist nur langweiliger Hintergrund (Wände, Himmel, Fußboden).

  • Das Problem: Wenn der Computer alles gleichzeitig analysiert, wird er langsam und verwirrt, weil er zu viel "Staub" sieht.
  • Die LAVIDA-Lösung: Sie nutzen einen cleveren Filter, den sie "Reverse Attention" nennen.
  • Die Analogie: Stell dir vor, du hast einen Raum voller Staub. Die alten Methoden versuchen, jeden einzelnen Staubkorn zu zählen. LAVIDA hingegen sagt: "Ignoriere den ganzen Staub! Konzentriere dich nur auf die Stelle, wo etwas anders aussieht als der Rest."
  • Es filtert den langweiligen Hintergrund heraus und behält nur die spannenden, verdächtigen Teile. Das macht den Prozess extrem schnell und spart Rechenleistung, ohne wichtige Details zu verlieren.

4. Das Ergebnis: Ein Allround-Talent

Weil LAVIDA so trainiert wurde (nur mit "falschen" Beispielen und dem Verständnis von Sprache), ist es ein Zero-Shot-Meister.

  • Zero-Shot bedeutet: Es muss nicht für jedes neue Szenario neu trainiert werden.
  • Wenn du ihm heute sagst: "Achte auf Explosionen", kann er das sofort.
  • Wenn du ihm morgen sagst: "Achte auf Schlägereien", kann er das auch sofort.
  • Er funktioniert in einer Fabrik, auf einer Straße oder in einem Park, ohne dass man ihm vorher gezeigt hat, wie eine Fabrik oder ein Park aussieht.

Zusammenfassung in einem Satz

LAVIDA ist wie ein Sicherheitsbeamter, der nicht auswendig gelernt hat, wie ein Dieb aussieht, sondern der Versteht, was "falsch" bedeutet, und der so scharf sieht, dass er sofort erkennt, wenn etwas an einem Ort ist, wo es nicht hingehört – egal, ob es sich um einen Dieb, einen explodierenden Ballon oder ein wildes Tier handelt.

Warum ist das wichtig?
Früher mussten Sicherheitskammern für jeden neuen Ort und jedes neue Verbrechen neu programmiert werden. Mit LAVIDA kann man ein einziges System haben, das überall funktioniert und sofort auf neue Bedrohungen reagiert, ohne dass man ihm erst Monate lang Beispiele zeigen muss.