Language-guided Open-world Video Anomaly Detection under Weak Supervision

Die Arbeit stellt LaGoVAD vor, einen sprachgesteuerten Video-Anomalie-Detektor, der unter schwacher Aufsicht dynamisch auf variable Anomalie-Definitionen in offenen Welten reagiert, und ergänzt dies um den umfassenden PreVAD-Datensatz mit semantischen Beschreibungen, um Zero-Shot-Tests auf mehreren Datensätzen mit State-of-the-Art-Ergebnissen zu ermöglichen.

Zihao Liu, Xiaoyu Wu, Jianqin Wu, Xuxu Wang, Linlin Yang

Veröffentlicht 2026-03-04
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🎥 LaGoVAD: Der Video-Detektiv, der sich auf deine Regeln einstellt

Stell dir vor, du hast einen sehr intelligenten Video-Wächter. Normalerweise lernt dieser Wächter in der Schule (dem Training), was „normal" ist (z. B. Leute gehen auf dem Gehweg) und was „abnormal" ist (z. B. jemand rennt wild durch die Gegend).

Das Problem bei den alten Wächtern war: Sie waren stur.
Wenn du ihnen sagtest: „Achte auf Diebe!", lernten sie nur Diebe zu erkennen. Aber was ist, wenn sich die Regeln ändern?

  • Beispiel: Ein Mensch, der auf der Straße läuft, ist im normalen Leben völlig okay. Aber in einer Sperrzone oder auf einer Autobahn ist das gleiche Bild plötzlich lebensgefährlich und „abnormal".
  • Das Problem: Alte Systeme dachten: „Ein Mensch auf der Straße ist immer normal." Sie konnten nicht verstehen, dass sich die Bedeutung (die Definition) von „normal" je nach Situation ändert. Das nennt man in der Wissenschaft Konzept-Drift (eine Art Gedächtnisverlust für Regeln).

🚀 Die Lösung: LaGoVAD (Der sprachgesteuerte Detektiv)

Die Autoren haben einen neuen Wächter namens LaGoVAD gebaut. Hier ist das Besondere daran:

1. Der Wächter fragt dich erst, bevor er zuschlägt.
Statt fest zu lernen, was ein Dieb ist, gibt LaGoVAD dir ein Mikrofon. Du kannst ihm natürliche Sprache geben.

  • Szenario A: Du sagst: „Achte auf Menschen, die Masken tragen." (Während einer Grippe-Welle).
  • Szenario B: Du sagst: „Achte auf Menschen, die keine Masken tragen." (In einer Klinik).
  • Das Gleiche Video: Ein Mensch ohne Maske.
  • Ergebnis: Im Szenario A ist er „normal". Im Szenario B ist er „abnormal". LaGoVAD passt sich sofort an, weil er deine Sprachregel versteht.

2. Der riesige Übungsbuch (PreVAD-Datensatz)
Damit ein Wächter so flexibel sein kann, braucht er extrem viel Übung. Bisher gab es nur kleine Bücher mit wenigen Beispielen, die oft nur „Verbrechen" zeigten.
Die Forscher haben PreVAD erstellt: Das ist das größte und vielfältigste Übungsbuch der Welt für Video-Anomalien.

  • Größe: Es enthält fast 35.000 Videos (über 200 Stunden!).
  • Vielfalt: Nicht nur Diebstahl, sondern auch Unfälle, Tierangriffe, Produktionsfehler und mehr.
  • Der Clou: Jedes Video hat nicht nur ein Etikett (z. B. „Feuer"), sondern eine detaillierte Beschreibung (z. B. „Ein LKW kippt um und fängt Feuer"). Das hilft dem Wächter, die Bedeutung zu verstehen, nicht nur das Bild zu erkennen.

3. Der Trick gegen das „Auswendiglernen" (Regularisierung)
Ein großes Problem beim Lernen ist, dass Systeme oft nur das Auswendiglernen (Overfitting). Sie merken sich die Videos, statt die Regeln zu verstehen. LaGoVAD nutzt zwei Tricks, um schlauer zu werden:

  • Trick 1: Der Video-Zauberer (Dynamische Videosynthese)
    Stell dir vor, du trainierst einen Schiedsrichter. Du nimmst ein Video, in dem ein Unfall passiert, und schneidest es so, dass der Unfall nur 1 Sekunde dauert und der Rest des Videos normal ist. Oder du fügst lange normale Abschnitte hinzu.
    LaGoVAD macht das automatisch: Er schneidet Videos dynamisch zusammen, um dem System beizubringen, dass Anomalien oft nur kurze Momente in einem langen, normalen Video sind. So lernt er, den Kontext zu verstehen.

  • Trick 2: Der Stresstest (Kontrastives Lernen mit „schwierigen Negativen")
    Stell dir vor, du lehrst jemanden, einen echten Diamanten von einem Glasstein zu unterscheiden. Wenn du ihm nur einen klaren Diamanten und einen klaren Glasstein zeigst, ist es leicht.
    Aber was, wenn der Glasstein so glänzt wie ein Diamant? Das ist ein „schwieriger Negativfall". LaGoVAD sucht sich gezielt diese verwirrenden Beispiele aus, um zu lernen, genau auf die Details zu achten, die den Unterschied machen.

🏆 Das Ergebnis: Der Meister der offenen Welt

Die Forscher haben LaGoVAD an sieben verschiedenen Orten getestet (von Überwachungskameras auf Autobahnen bis hin zu Filmen).

  • Ergebnis: LaGoVAD ist der Beste (State-of-the-Art).
  • Warum? Weil er nicht starr ist. Er versteht, dass „normal" und „abnormal" keine festen Tatsachen sind, sondern davon abhängen, was du gerade für wichtig hältst.

🌍 Zusammenfassung in einem Satz

LaGoVAD ist wie ein super-intelligenter Video-Wächter, der nicht stur nach einem alten Lehrbuch lernt, sondern dir zuhört, um zu verstehen, was in deiner spezifischen Situation gerade als Problem gilt – und das alles dank eines riesigen Übungsbuchs, das er sich selbst mit Hilfe von KI zusammengebaut hat.