Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

🎥 Das Problem: Der müde Wachmann

Stell dir vor, du hast eine riesige Überwachungskamera, die 24 Stunden am Tag auf einen belebten Platz filmt. Deine Aufgabe ist es, alles zu überwachen, um zu sehen, ob etwas Schlimmes passiert (z. B. jemand stiehlt eine Tasche oder ein Auto fährt falsch herum).

Das Problem: Niemand kann stundenlang auf einen Bildschirm starren. Wenn man das tut, wird man müde und übersieht Dinge. Also brauchen wir Computer, die das für uns tun.

Aber bisher hatten diese Computer zwei große Schwächen:

Sie verstehen Zusammenhänge nicht: Sie sehen vielleicht, dass ein Hund und ein Mensch nebeneinander sind. Aber sie verstehen nicht, dass es seltsam ist, wenn der Hund den Menschen auf dem Rücken trägt. Sie sehen nur die Einzelteile, nicht das ganze Bild.
Sie sind stumm: Wenn der Computer sagt "Hier ist etwas falsch!", kann er nicht erklären, warum. Das ist wie ein Alarm, der nur piept, aber nicht sagt, ob es ein Feuer oder ein Einbruch ist.

🧠 Die neue Lösung: Der "KI-Übersetzer"

Die Forscher aus diesem Papier haben eine clevere Idee entwickelt, die wir MLLM-EVAD nennen. Stell dir das System wie einen sehr aufmerksamen Übersetzer vor, der die Sprache der Bilder in die Sprache der Menschen (Text) übersetzt.

Hier ist, wie es funktioniert, Schritt für Schritt:

1. Die Beobachtung (Die Kamera)

Zuerst schaut sich das System das normale Video an (z. B. wie Menschen über die Straße gehen). Es nutzt einen "Augen"-Algorithmus, der Objekte erkennt: "Da ist ein Mensch", "Da ist ein Hund", "Da ist ein Auto".

2. Die Paarung (Die Freunde)

Das System schaut nicht nur auf einzelne Objekte, sondern darauf, wer mit wem interagiert.

Beispiel: Ein Mensch und ein Hund, die nebeneinander laufen.
Beispiel: Zwei Autos, die sich nähern.

3. Der große Übersetzer (Die Multimodale KI)

Jetzt kommt der Clou: Das System schneidet kleine Ausschnitte aus dem Video aus (z. B. den Moment, in dem der Hund den Menschen anspringt, und den Moment eine Sekunde später). Diese Bilder schickt es an eine super-intelligente KI (eine Art "Gehirn", das Bilder und Text versteht).

Die KI wird gefragt: "Was machen diese beiden hier gerade?"

Die KI antwortet nicht mit Zahlen, sondern mit einem Satz:

Normales Video: "Ein Mensch läuft neben einem Hund her, der an der Leine ist."
Seltsames Video: "Ein Mensch wird von einem Hund in einem großen Karton geschubst."

4. Das Gedächtnis (Die Bibliothek)

Das System sammelt tausende dieser Sätze von normalen, harmlosen Situationen. Es baut sich eine Bibliothek der "Normalität" auf. Es merkt sich: "Ah, normalerweise laufen Menschen und Hunde so zusammen."

5. Der Test (Der Vergleich)

Wenn dann ein neues Video kommt, macht das System genau das Gleiche: Es fragt die KI, was passiert, und vergleicht den Satz mit seiner Bibliothek.

Wenn der Satz "Ein Mensch läuft neben einem Hund" ist, passt er perfekt in die Bibliothek. Alles okay.
Wenn der Satz "Ein Mensch wird im Karton geschubst" ist, sucht das System in seiner Bibliothek. Fehlanzeige! So etwas gibt es dort nicht.
Ergebnis: Alarm! Und das Beste: Das System kann dir den Satz zeigen und sagen: "Es ist verdächtig, weil hier ein Mensch in einem Karton geschubst wird, was wir noch nie gesehen haben."

🌟 Warum ist das so besonders?

Stell dir vor, du hast einen Detektiv, der nicht nur schreit "Verdächtig!", sondern dir eine Erzählung liefert.

Früher: "Hier ist eine Anomalie (Score: 0,85)." (Was bedeutet das? Keine Ahnung.)
Jetzt: "Hier ist eine Anomalie, weil ein Fahrrad auf dem Gehweg fährt, während normalerweise nur Fußgänger dort sind."

Das System versteht also nicht nur Pixel, sondern Bedeutung. Es versteht, dass ein Fahrrad auf dem Gehweg sozial falsch ist, nicht nur mathematisch.

🚀 Was bringt das uns?

Komplexe Dinge verstehen: Es erkennt Dinge, die nur schwer zu beschreiben sind, wie "Jemand lässt eine Tasche fallen und rennt weg" oder "Ein Hund läuft ohne Leine".
Erklärbarkeit: Wenn die Polizei oder Sicherheitskräfte den Alarm sehen, wissen sie sofort, worum es geht, weil sie den Text lesen können.
Bessere Ergebnisse: Auf Tests hat dieses System besser abgeschnitten als alle bisherigen Methoden, besonders bei Szenen, in denen Dinge miteinander interagieren.

⚠️ Ein kleiner Haken

Die "KI-Übersetzer" (die großen Sprachmodelle) sind sehr mächtig, aber auch etwas träge und brauchen viel Energie. Man kann sie nicht in Echtzeit auf jeder kleinen Kamera laufen lassen. Aber für wichtige Überwachungsstellen, wo man genau wissen will, was passiert ist, ist diese Methode ein riesiger Schritt nach vorne.

Kurz gesagt: Die Forscher haben den Computern beigebracht, nicht nur zu sehen, sondern auch zu beschreiben, was sie sehen. Und wenn die Beschreibung nicht zur normalen Geschichte passt, wissen wir sofort, dass etwas faul ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderungen im Bereich der Video-Anomalieerkennung (Video Anomaly Detection, VAD), speziell im semi-superviseden Setting (nur normale Trainingsvideos sind verfügbar, keine Anomalien).

Herausforderungen bestehender Methoden: Herkömmliche semi-supervisierte Ansätze (z. B. auf Frame-Rekonstruktion oder -Vorhersage basierend) haben Schwierigkeiten, komplexe Anomalien zu erkennen, die auf Interaktionen zwischen Objekten beruhen (z. B. eine Person, die ein Objekt auf den Boden legt, oder ein Hund ohne Leine). Zudem fehlt diesen Methoden oft eine Erklärbarkeit (Explainability); sie liefern zwar eine Anomalie-Score, aber keine textuellen Gründe, warum ein Ereignis anomal ist.
Einschränkungen aktueller MLLM-Ansätze: Bisherige Ansätze, die Multimodale Large Language Models (MLLMs) nutzen, arbeiten oft in schwach überwachten, multi-szenischen Settings oder treffen direkte Frame-Level-Entscheidungen. Sie modellieren selten spezifische Objektinteraktionen und sind oft nicht auf einzelne Szenen mit spezifischen Normalitätsmustern zugeschnitten.

2. Methodik: MLLM-EVAD

Die Autoren schlagen einen neuen Rahmen namens MLLM-EVAD (MLLM-based Explainable Video Anomaly Detection) vor. Der Kern der Methode besteht darin, normale Aktivitäten nicht durch Pixel oder Rohmerkmale, sondern durch textuelle Beschreibungen zu modellieren.

Der Pipeline-Ablauf:

Objekterkennung und -verfolgung:
- Ein Objektdetektor (z. B. Detectron2) und ein Tracker (ByteTrack) extrahieren Objekte und deren Trajektorien über die Frames.
- Basierend auf der räumlichen Nähe (unter Verwendung einer Pseudo-Tiefe) werden Objektpaare identifiziert, die wahrscheinlich interagieren, sowie einzelne Objekte.
Generierung textueller Beschreibungen (MLLM-Agent):
- Für jedes Objektpaar (oder einzelne Objekt) werden zwei Bildausschnitte (Crops) aus zwei Zeitpunkten ( $t$ und $t+\Delta$ , z. B. 1 Sekunde später) erstellt.
- Diese visuellen Eingaben werden zusammen mit einem Prompt an ein Multimodales LLM (z. B. GPT-4o oder Gemma 3) gesendet.
- Das MLLM generiert einen natürlichen Satz, der die Aktivität und Interaktion der Objekte beschreibt (z. B. „Zwei Personen gehen nebeneinander auf dem Zebrastreifen").
Modellbildung (Exemplar Selection):
- Die generierten Sätze werden mittels eines Sentence-Embedding-Modells (Sentence-BERT) in Vektoren umgewandelt.
- Ein Exemplar-Auswahlalgorithmus wird auf die Trainingsdaten angewendet: Es werden redundante Beschreibungen entfernt, um eine kompakte Menge repräsentativer „Normal-Exemplare" (Exemplar Sets) zu erstellen. Dies dient als Modell für das normale Verhalten der Szene.
Anomalieerkennung im Test:
- Für Testvideos werden analog Beschreibungen generiert und in Vektoren eingebettet.
- Die Anomalie-Score wird berechnet als $1 - \text{max}(\text{Cosine-Similarität})$ zwischen dem Test-Vektor und dem nächstgelegenen Exemplar im Normal-Set.
- Eine hohe Distanz (niedrige Ähnlichkeit) deutet auf eine Anomalie hin.
Erweiterbarkeit: Die Methode kann leicht mit anderen objektbasierten VAD-Methoden (z. B. basierend auf Trajektorien oder Szenengraphen) kombiniert werden, indem die MLLM-Textbeschreibungen als zusätzliche Attribute in die Distanzberechnung integriert werden.

3. Schlüsselbeiträge

Erster MLLM-Ansatz für komplexe Interaktions-Anomalien: Die Arbeit ist die erste, die MLLMs speziell für die Erkennung von Anomalien nutzt, die durch Interaktionen zwischen Objekten in einem semi-superviseden, ein-szenischen Setting entstehen.
Neuartige Nutzung von MLLMs: Statt das MLLM direkt nach „Anomalie ja/nein" zu fragen, wird es verwendet, um eine Repräsentation des Normalen zu erstellen. Anomalien werden durch Abweichungen von dieser textuellen Repräsentation identifiziert.
Innere Erklärbarkeit: Da die Erkennung auf textuellen Beschreibungen basiert, liefert das System automatisch eine textuelle Erklärung für die Anomalie (durch den Vergleich mit dem ähnlichsten normalen Exemplar).
State-of-the-Art Performance: Die Methode erreicht auf Benchmark-Datensätzen neue Bestleistungen.

4. Ergebnisse

Die Methode wurde auf drei Datensätzen evaluiert: ComplexVAD (fokussiert auf Interaktions-Anomalien), Avenue und Street Scene.

ComplexVAD:
- MLLM-EVAD übertrifft den bisherigen besten Ansatz (Scene-Graph) in allen Metriken (RBDC, TBDC, Frame-Level).
- Die Kombination aus MLLM-EVAD und Scene-Graph erreicht die besten Ergebnisse: 25% RBDC, 70% TBDC, 63% Frame-Level AUC.
- Dies zeigt, dass die textuellen Beschreibungen Interaktionsmuster effektiv erfassen, die rein geometrische Methoden verpassen.
Avenue & Street Scene:
- Auch auf diesen Datensätzen, die weniger Interaktions-Anomalien enthalten, verbessert die Kombination mit der Tracklet-Methode (T-EVAL) den State-of-the-Art, insbesondere bei den räumlich-zeitlichen Metriken (RBDC/TBDC).
Qualitative Bewertung (Erklärbarkeit):
- Eine menschliche Evaluierung zeigte, dass die von MLLM-EVAD generierten Erklärungen als informativ bewertet wurden und stark mit manuell geschriebenen Beschreibungen übereinstimmen (Durchschnittswert 3.8/5 vs. 4.2/5 für menschliche Annotationen).
- Beispiele zeigen, dass das System subtile Abweichungen (z. B. „Person wird in einer Kiste geschoben" vs. „Person geht normal") korrekt identifiziert und erklärt.
Ablationsstudien:
- MLLM-Auswahl: Gemma 3 schnitt besser ab als GPT-4o, da es detailliertere und beschreibendere Sätze generierte, was für die Erfassung von Interaktionen entscheidend ist.
- Ähnlichkeitsmetrik: Sentence-BERT Embeddings lieferten die beste Gesamtleistung im Vergleich zu BLEU oder METEOR.

5. Bedeutung und Ausblick

Paradigmenwechsel: Die Arbeit verschiebt den Fokus von pixelbasierter Modellierung hin zu einer semantischen, sprachbasierten Modellierung des Normalverhaltens. Dies ermöglicht ein tieferes Verständnis von Szenen und Interaktionen.
Interpretierbarkeit: In sicherheitskritischen Anwendungen (Überwachung) ist die Fähigkeit, warum eine Anomalie erkannt wurde, entscheidend für die Akzeptanz und den Einsatz durch menschliche Operatoren.
Limitationen & Zukunft:
- Der Ansatz ist derzeit rechenintensiv und nicht für Echtzeitanwendungen geeignet (hohe Latenz durch MLLM-Inferenz).
- Es fehlen Ground-Truth-Datensätze mit textuellen Annotationen für semi-supervisedes VAD, was eine quantitative Bewertung der Erklärbarkeit erschwert.
- Zukünftige Arbeiten könnten kleinere, feinabgestimmte Modelle oder Open-Vocabulary-Detektoren integrieren, um die Effizienz und Generalisierbarkeit zu erhöhen.

Zusammenfassend stellt dieses Paper einen bedeutenden Fortschritt dar, der die Stärken von Multimodalen LLMs nutzt, um nicht nur Anomalien genauer zu erkennen, sondern diese auch für Menschen verständlich zu machen, insbesondere bei komplexen Szenarien mit Objektinteraktionen.