FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Sicherheitschef, der hunderte Stunden Überwachungsvideos von einer belebten Einkaufsstraße anschaut. Plötzlich passiert etwas Seltsames: Jemand stiehlt eine Uhr, ein anderer wirft einen Stein, und ein dritter fällt hin.

Bisher waren die Computer, die diese Videos analysieren sollten, wie sehr höfliche, aber etwas verwirrte Bibliothekare. Wenn man sie fragte: „Was ist hier passiert?", antworteten sie oft mit Sätzen wie: „Ein Mann ist in der Nähe eines Ladens." Das klingt grammatikalisch perfekt und flüssig, aber es verpasst das Wichtigste: Dass er gestohlen hat!

Die alten Methoden, um diese Computer zu bewerten, waren wie ein Lehrer, der nur auf die Rechtschreibung achtet, aber nicht darauf, ob die Geschichte überhaupt Sinn ergibt. Wenn der Computer sagte: „Der Mann hat die Uhr gestohlen" und der Lehrer sagte: „Der Mann hat die Uhr geklaut", bekam der Computer eine gute Note, weil die Wörter ähnlich klangen. Aber wenn der Computer sagte: „Der Mann hat die Uhr gestohlen", aber eigentlich war es ein Diebstahl von Geld, bekam er trotzdem eine gute Note, weil die Wörter „Mann" und „Uhr" vorkamen. Das ist gefährlich, weil wir in der echten Welt wissen wollen, was genau passiert ist.

Hier kommt FineVAU ins Spiel – der neue Held in dieser Geschichte.

1. Die neue Regel: „Wer, Was, Wo?"

Die Forscher sagen: „Hör auf, nur auf schöne Sätze zu achten. Wir wollen wissen, ob der Computer die wahren Details sieht." Sie haben das Problem in drei einfache Fragen aufgeteilt, die sich wie ein Detektiv-Notizblock anfühlen:

Was? (Das Ereignis): Was genau passiert? (Nicht nur „Leute laufen", sondern „Jemand rennt weg und wirft etwas weg".)
Wer? (Die Akteure): Wer ist beteiligt? (Nicht nur „ein Mann", sondern „ein Mann mit roter Jacke und Bart".)
Wo? (Der Ort): Wo passiert es? (Nicht nur „draußen", sondern „in einer belebten Bäckerei bei Nacht".)

Stellen Sie sich vor, Sie bewerten einen Schüler nicht daran, wie gut er einen Aufsatz schreibt, sondern daran, ob er alle drei Punkte auf einer Checkliste korrekt abhaken kann.

2. Der neue Richter: Der „FV-Score"

Früher bewerteten Computer die Antworten von anderen Computern mit strengen, aber dummen Regeln (wie das Zählen von Wörtern). Oder sie ließen einen anderen, sehr klugen KI-Computer urteilen, der aber oft nur auf den Tonfall achtete und nicht auf die Fakten.

FineVAU führt einen neuen Richter ein, den FV-Score. Dieser Richter ist wie ein sehr genauer Forensiker. Er nimmt die Antwort des Computers und zerlegt sie in kleine Puzzleteile:

Hat der Computer den Dieb erwähnt? (Ja/Nein)
Hat er die rote Jacke erwähnt? (Ja/Nein)
Hat er gesagt, dass es Nacht war? (Ja/Nein)

Wenn der Computer sagt: „Ein Mann stiehlt etwas", aber vergisst zu erwähnen, was er stiehlt oder wer er ist, bekommt er Punkte ab. Der FV-Score gibt also kein vages „Gut" oder „Schlecht", sondern ein detailliertes Feedback: „Du hast den Ort richtig erkannt, aber den Täter falsch beschrieben."

3. Der neue Trainingsplatz: FineW³

Um diesen neuen Richter zu trainieren, brauchten die Forscher eine riesige Sammlung von Videos, die nicht nur „ungewöhnlich" markiert sind, sondern extrem detailliert beschrieben wurden.
Sie haben einen automatischen Prozess entwickelt (wie einen sehr fleißigen Roboter-Assistenten), der alte Videos durchsucht und sie mit neuen Informationen „anreichert".

Vorher: „Ein Unfall passiert."
Nach dem FineW³-Prozess: „Ein rotes Auto (Wer) rammt gegen 18 Uhr (Wo) einen Laternenmast (Was) auf einer nassen Straße."

Dieser neue Datensatz ist wie ein Spickzettel für Super-Detektive, der dem Computer beibringt, dass die Details (die Farbe des Autos, die Uhrzeit) genauso wichtig sind wie die Hauptaktion.

Was haben sie herausgefunden?

Als sie die besten aktuellen KI-Modelle (die „Super-Computer") auf diesem neuen Test prüften, kam eine überraschende Wahrheit ans Licht:

Die KIs sind gute Beschreibungs-Künstler für statische Dinge. Sie können sagen: „Das ist eine Straße" oder „Das ist ein Auto". Aber sobald es darum geht, kleine, schnelle und seltsame Dinge zu erkennen, die nur für eine Sekunde passieren, versagen sie.

Sie sehen oft nur das „Normale". Wenn jemand stiehlt, denken sie oft, er würde nur etwas kaufen.
Sie verpassen die Details. Sie sehen den Dieb, aber nicht die gestohlene Uhr.

Die Moral der Geschichte:
Bisher haben wir KI-Modelle dafür gelobt, dass sie gut reden können. FineVAU zeigt uns, dass wir sie jetzt darauf prüfen müssen, ob sie die Wirklichkeit wirklich verstehen. Es ist der Unterschied zwischen jemandem, der einen Krimi laut vorliest, und jemandem, der den Mörder wirklich findet. Mit diesem neuen Maßstab (FineVAU) und dem neuen Datensatz (FineW³) können wir nun KI-Systeme bauen, die nicht nur „hübsche Sätze" produzieren, sondern uns wirklich helfen, Gefahren in Videos zu erkennen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Ziel von Video Anomaly Understanding (VAU) besteht darin, ungewöhnliche Ereignisse in Videos nicht nur zu detektieren, sondern sie auch sprachlich präzise zu beschreiben. Trotz des wachsenden Interesses an diesem Bereich bleibt die Evaluierung eine offene Herausforderung.

Die bestehenden Benchmarks und Metriken leiden unter zwei Hauptproblemen:

N-Gram-basierte Metriken (z. B. BLEU, ROUGE-L): Diese messen lediglich lexikalische Überlappungen zwischen Referenz und Modellantwort. Sie erfassen nicht die semantische Äquivalenz oder die faktische Richtigkeit von freien Textantworten (Free-Form), die von Large Vision-Language Models (LVLMs) generiert werden.
LLM-basierte Metriken: Diese bewerten oft die sprachliche Flüssigkeit und den logischen Zusammenhalt, vernachlässigen aber die faktische Relevanz und die visuelle Verankerung (Grounding). Die Ergebnisse sind oft subjektiv und stimmen nicht mit der menschlichen Wahrnehmung von Anomalien überein.

Es fehlt also an einem Benchmark, der die feingranulare, domänenspezifische und visuell fundierte Fähigkeit von Modellen zur Beschreibung von Anomalien bewertet.

2. Methodik und Ansatz

Die Autoren schlagen FineVAU vor, einen neuen Benchmark, der die Evaluierung auf drei strukturelle Dimensionen ausrichtet, die für die menschliche Wahrnehmung von Anomalien entscheidend sind:

Was (Events): Welche Aktionen, Interaktionen oder Zustandsänderungen finden statt?
Wer (Entities): Welche Akteure oder Objekte sind beteiligt und welche visuellen Attribute (Kleidung, Alter, Farbe) haben sie?
Wo (Location): Wo finden die Ereignisse statt (Umgebung, Beleuchtung, Tageszeit, spezifische Merkmale)?

FV-Score (Die neue Metrik)

Anstelle einer pauschalen Bewertung führt FineVAU die FV-Score-Metrik ein. Diese bewertet die Antwort eines LVLMs basierend auf dem Vorkommen und der Korrektheit der oben genannten Schlüsselelemente.

Bewertungsskala:
- Who & Where: Binär (0 = fehlt/falsch, 1 = vorhanden/korrekt).
- What: Ternär (0 = fehlt/falsch, 0.5 = teilweise/fehlerhaft, 1 = vollständig/korrekt).
Berechnung: Ein LLM-Richter (FineVAU-Judge, basierend auf Gemini-2.5-Flash) prüft die generierte Antwort gegen die Ground-Truth-Daten und vergibt Punkte pro Dimension. Der Gesamtscore ist eine gewichtete Summe dieser Teilscores.
Vorteil: Die Metrik liefert interpretierbares, feingranulares Feedback und korreliert stark mit menschlichen Urteilen.

FineW³ (Der neue Datensatz)

Um diese strukturierte Bewertung zu ermöglichen, wurde FineW³ erstellt, ein hochwertiger Datensatz, der bestehende menschliche Annotationen (aus dem UCA-Datensatz) durch einen vollautomatischen, LVLM-gestützten Prozess erweitert:

Pipeline: Ein zweistufiger Prozess nutzt ein LVLM (Gemini-2.5-Pro), um:
1. Rohdaten in atomare, kausal verknüpfte Ereignisse zu zerlegen und Entitäten zu verknüpfen.
2. Die Entitäten und den Ort mit feingranularen visuellen Attributen (z. B. Kleidungsdetails, Beleuchtung, spezifische Objekte) anzureichern.
Umfang: Der Datensatz enthält 1.544 Videos mit über 17.000 Ereignissen, fast 60.000 Entitäten und detaillierten Ortsbeschreibungen.

3. Hauptbeiträge

FineVAU Benchmark: Ein neuer Standard für VAU, der die Evaluierung auf die menschlich korrelierten Dimensionen Was, Wer, Wo fokussiert.
FV-Score: Eine LLM-basierte Metrik, die eine feingranulare, interpretierbare und menschlich abgestimmte Bewertung von Anomaliebeschreibungen ermöglicht.
FineW³ Datensatz: Ein skalierbarer, hochqualitativer Datensatz, der durch automatische Anreicherung detaillierte visuelle Informationen über Ereignisse, Entitäten und Orte bereitstellt.
Umfassende Evaluation: Eine detaillierte Analyse aktueller State-of-the-Art-LVLMs, die kritische Schwächen aufdeckt.

4. Ergebnisse und Experimente

Die Autoren evaluierten fünf führende Open-Source-LVLMs (Qwen2.5-VL, InternVL3, VideoLLaMA3, LLaVA-VID, LLaVA-OneVision) auf FineVAU.

Korrelation mit menschlichem Urteil: FV-Score zeigt eine signifikant höhere Korrelation mit menschlichen Bewertungen (Pearson-Korrelation $\rho = 0.61$ ) als traditionelle N-Gram-Metriken (z. B. ROUGE-L: $\rho = 0.47$ ) oder andere LLM-basierte Richter. Dies bestätigt, dass die strukturierte Bewertung besser zur menschlichen Wahrnehmung passt.
Leistung der Modelle:
- Statische vs. Dynamische Information: Modelle sind stark in der Erkennung statischer Informationen (Ort, grobe Entitäten), erreichen aber bei feingranularen Attributen und dynamischen Ereignissen nur schwache Ergebnisse (mittlere Ereignisgenauigkeit von nur 12,2 %).
- Räumliche und zeitliche Schwierigkeiten: Modelle scheitern oft an Ereignissen, die kleine räumliche oder zeitliche Fenster erfordern (z. B. Diebstahl von kleinen Gegenständen), während sie bei starken visuellen Hinweisen (z. B. Explosionen, Feuer) besser abschneiden.
- Bias hin zur Normalität: Modelle neigen dazu, Anomalien als normale Ereignisse zu interpretieren (Halluzination von „Normalität"), während sie seltener in normalen Szenen Anomalien erfinden.
- Bestes Modell: InternVL3 erzielte die besten Ergebnisse über alle Dimensionen hinweg.

5. Bedeutung und Fazit

FineVAU adressiert eine kritische Lücke in der Evaluierung von Video-Anomalie-Verständnis. Die Studie zeigt, dass aktuelle LVLMs zwar gut darin sind, statische Szenen zu beschreiben, aber fundamental versagen, wenn es um das Verständnis feingranularer, subtiler Anomalien geht, die eine tiefe räumlich-zeitliche Analyse erfordern.

Signifikanz:

Der Benchmark zwingt Modelle dazu, über reine Sprachflüssigkeit hinaus zu denken und visuelle Fakten zu verankern.
Die Ergebnisse unterstreichen die Notwendigkeit von gezieltem Training, um Halluzinationen zu reduzieren und das Verständnis für komplexe, dynamische Anomalien zu verbessern.
FineVAU und FineW³ dienen als neue, herausfordernde Referenz für die Entwicklung robusterer LVLMs im Bereich der Sicherheitsüberwachung und Infrastrukturmonitoring.

Der Code und der Datensatz sind unter https://finevau.github.io verfügbar.

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

1. Die neue Regel: „Wer, Was, Wo?"

2. Der neue Richter: Der „FV-Score"

3. Der neue Trainingsplatz: FineW³

Was haben sie herausgefunden?

1. Problemstellung

2. Methodik und Ansatz

FV-Score (Die neue Metrik)

FineW³ (Der neue Datensatz)

3. Hauptbeiträge

4. Ergebnisse und Experimente

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation