Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Die Autoren stellen ein neuartiges Framework für die halbüberwachte Videoanomalieerkennung vor, das Multimodal Large Language Models nutzt, um hochlevelige Textbeschreibungen von Objektinteraktionen zu generieren, wodurch sowohl die Erkennung komplexer Anomalien als auch die Erklärbarkeit der Ergebnisse verbessert werden.

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

Veröffentlicht 2026-03-02
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🎥 Das Problem: Der müde Wachmann

Stell dir vor, du hast eine riesige Überwachungskamera, die 24 Stunden am Tag auf einen belebten Platz filmt. Deine Aufgabe ist es, alles zu überwachen, um zu sehen, ob etwas Schlimmes passiert (z. B. jemand stiehlt eine Tasche oder ein Auto fährt falsch herum).

Das Problem: Niemand kann stundenlang auf einen Bildschirm starren. Wenn man das tut, wird man müde und übersieht Dinge. Also brauchen wir Computer, die das für uns tun.

Aber bisher hatten diese Computer zwei große Schwächen:

  1. Sie verstehen Zusammenhänge nicht: Sie sehen vielleicht, dass ein Hund und ein Mensch nebeneinander sind. Aber sie verstehen nicht, dass es seltsam ist, wenn der Hund den Menschen auf dem Rücken trägt. Sie sehen nur die Einzelteile, nicht das ganze Bild.
  2. Sie sind stumm: Wenn der Computer sagt "Hier ist etwas falsch!", kann er nicht erklären, warum. Das ist wie ein Alarm, der nur piept, aber nicht sagt, ob es ein Feuer oder ein Einbruch ist.

🧠 Die neue Lösung: Der "KI-Übersetzer"

Die Forscher aus diesem Papier haben eine clevere Idee entwickelt, die wir MLLM-EVAD nennen. Stell dir das System wie einen sehr aufmerksamen Übersetzer vor, der die Sprache der Bilder in die Sprache der Menschen (Text) übersetzt.

Hier ist, wie es funktioniert, Schritt für Schritt:

1. Die Beobachtung (Die Kamera)

Zuerst schaut sich das System das normale Video an (z. B. wie Menschen über die Straße gehen). Es nutzt einen "Augen"-Algorithmus, der Objekte erkennt: "Da ist ein Mensch", "Da ist ein Hund", "Da ist ein Auto".

2. Die Paarung (Die Freunde)

Das System schaut nicht nur auf einzelne Objekte, sondern darauf, wer mit wem interagiert.

  • Beispiel: Ein Mensch und ein Hund, die nebeneinander laufen.
  • Beispiel: Zwei Autos, die sich nähern.

3. Der große Übersetzer (Die Multimodale KI)

Jetzt kommt der Clou: Das System schneidet kleine Ausschnitte aus dem Video aus (z. B. den Moment, in dem der Hund den Menschen anspringt, und den Moment eine Sekunde später). Diese Bilder schickt es an eine super-intelligente KI (eine Art "Gehirn", das Bilder und Text versteht).

Die KI wird gefragt: "Was machen diese beiden hier gerade?"

Die KI antwortet nicht mit Zahlen, sondern mit einem Satz:

  • Normales Video: "Ein Mensch läuft neben einem Hund her, der an der Leine ist."
  • Seltsames Video: "Ein Mensch wird von einem Hund in einem großen Karton geschubst."

4. Das Gedächtnis (Die Bibliothek)

Das System sammelt tausende dieser Sätze von normalen, harmlosen Situationen. Es baut sich eine Bibliothek der "Normalität" auf. Es merkt sich: "Ah, normalerweise laufen Menschen und Hunde so zusammen."

5. Der Test (Der Vergleich)

Wenn dann ein neues Video kommt, macht das System genau das Gleiche: Es fragt die KI, was passiert, und vergleicht den Satz mit seiner Bibliothek.

  • Wenn der Satz "Ein Mensch läuft neben einem Hund" ist, passt er perfekt in die Bibliothek. Alles okay.
  • Wenn der Satz "Ein Mensch wird im Karton geschubst" ist, sucht das System in seiner Bibliothek. Fehlanzeige! So etwas gibt es dort nicht.
  • Ergebnis: Alarm! Und das Beste: Das System kann dir den Satz zeigen und sagen: "Es ist verdächtig, weil hier ein Mensch in einem Karton geschubst wird, was wir noch nie gesehen haben."

🌟 Warum ist das so besonders?

Stell dir vor, du hast einen Detektiv, der nicht nur schreit "Verdächtig!", sondern dir eine Erzählung liefert.

  • Früher: "Hier ist eine Anomalie (Score: 0,85)." (Was bedeutet das? Keine Ahnung.)
  • Jetzt: "Hier ist eine Anomalie, weil ein Fahrrad auf dem Gehweg fährt, während normalerweise nur Fußgänger dort sind."

Das System versteht also nicht nur Pixel, sondern Bedeutung. Es versteht, dass ein Fahrrad auf dem Gehweg sozial falsch ist, nicht nur mathematisch.

🚀 Was bringt das uns?

  1. Komplexe Dinge verstehen: Es erkennt Dinge, die nur schwer zu beschreiben sind, wie "Jemand lässt eine Tasche fallen und rennt weg" oder "Ein Hund läuft ohne Leine".
  2. Erklärbarkeit: Wenn die Polizei oder Sicherheitskräfte den Alarm sehen, wissen sie sofort, worum es geht, weil sie den Text lesen können.
  3. Bessere Ergebnisse: Auf Tests hat dieses System besser abgeschnitten als alle bisherigen Methoden, besonders bei Szenen, in denen Dinge miteinander interagieren.

⚠️ Ein kleiner Haken

Die "KI-Übersetzer" (die großen Sprachmodelle) sind sehr mächtig, aber auch etwas träge und brauchen viel Energie. Man kann sie nicht in Echtzeit auf jeder kleinen Kamera laufen lassen. Aber für wichtige Überwachungsstellen, wo man genau wissen will, was passiert ist, ist diese Methode ein riesiger Schritt nach vorne.

Kurz gesagt: Die Forscher haben den Computern beigebracht, nicht nur zu sehen, sondern auch zu beschreiben, was sie sehen. Und wenn die Beschreibung nicht zur normalen Geschichte passt, wissen wir sofort, dass etwas faul ist.