FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le Détective qui lit mal les rapports

Imaginez que vous avez un détective très intelligent (une intelligence artificielle appelée LVLM) chargé de regarder des heures de vidéos de caméras de surveillance pour repérer des événements bizarres ou dangereux (un vol, une bagarre, une chute).

Le problème actuel, c'est que pour juger si ce détective a bien travaillé, on utilise des méthodes de notation très imparfaites :

La méthode du "Compteur de Mots" (N-grammes) : C'est comme si on notait le détective uniquement sur le nombre de mots qu'il a utilisés. S'il écrit un rapport très long et bien écrit, mais qu'il raconte n'importe quoi (par exemple, dire qu'il y a eu un incendie alors qu'il n'y en a pas), il obtient quand même une bonne note parce que ses phrases sont jolies.
La méthode du "Juge IA" : On demande à une autre IA de noter le rapport. Le problème, c'est que cette IA juge surtout la fluidité du texte. Elle peut être séduite par un rapport qui sonne bien mais qui est factuellement faux.

Résultat : On ne sait pas vraiment si le détective a vraiment compris ce qui se passe, ou s'il a juste bien "rédigé" une histoire.

🛠️ La Solution : FineVAU (Le Nouveau Système de Notation)

Les auteurs de l'article ont créé un nouveau système appelé FineVAU. Pour le comprendre, imaginons que le détective doit remplir un formulaire très précis pour chaque vidéo, au lieu d'écrire un roman.

Ce formulaire se base sur trois questions simples, comme les piliers d'une maison :

QUOI ? (What) : Qu'est-ce qui s'est passé ? (Ex: "Une personne a cassé une vitrine").
QUI ? (Who) : Qui était impliqué ? (Ex: "Un homme en veste rouge avec une moustache").
OÙ ? (Where) : Où cela s'est-il passé ? (Ex: "Dans un magasin de bijoux, la nuit, sous un néon clignotant").

L'idée géniale, c'est que le système FineVAU ne regarde pas la beauté du texte. Il vérifie si le détective a bien coché les bonnes cases pour le Quoi, le Qui et le Où. C'est comme vérifier si un cuisinier a bien mis les bons ingrédients dans la soupe, plutôt que de juste goûter si la soupe est salée.

📚 La Base de Données : FineW³ (Le Livre de Recettes)

Pour entraîner ce nouveau système, les auteurs ont créé une immense base de données appelée FineW³.

Imaginez que vous prenez des vieux rapports de police écrits à la main (qui sont souvent vagues) et que vous les transformez en une base de données ultra-précise grâce à une IA très intelligente.

Au lieu de dire "Il y a eu une bagarre", le système décompose cela : "Deux hommes se battent", "L'un porte un chapeau", "Cela se passe près d'une fontaine".
C'est comme passer d'une photo floue à une image en 4K où l'on voit chaque détail.

🧪 Les Résultats : Ce que l'on a découvert

En testant les meilleurs détectives IA actuels avec ce nouveau système, les auteurs ont fait des découvertes surprenantes :

Les IA sont de bonnes "photographes" mais de mauvaises "chroniqueurs" :
Les IA sont excellentes pour dire où se trouve la scène (c'est un parc, c'est la nuit) et qui est présent (c'est un homme, c'est une voiture). C'est comme si elles reconnaissaient très bien les objets statiques sur une photo.
Elles sont perdues dans le temps et le mouvement :
Dès qu'il faut comprendre une action subtile qui dure quelques secondes (comme quelqu'un qui cache un objet dans sa poche), les IA échouent lamentablement. Elles ne voient pas le "fil de l'action".
Le biais de la "Normalité" :
C'est le point le plus inquiétant. Les IA ont tendance à voir la "normalité" partout. Si deux hommes se battent, l'IA peut penser qu'ils discutent simplement. Elle a peur de voir le danger et préfère imaginer une scène calme. C'est comme un détective qui, par habitude, pense que tout le monde est gentil, même quand il y a un crime.

🚀 En Résumé

FineVAU est comme un nouveau manuel d'évaluation pour les détectives IA.

Avant : On notait sur la qualité de l'écriture (le style).
Maintenant : On note sur la précision des faits (le contenu).

Grâce à ce système, on a découvert que nos intelligences artificielles sont très fortes pour décrire une photo fixe, mais qu'elles ont encore beaucoup de mal à comprendre les histoires complexes, les mouvements rapides et les petits détails qui font la différence entre une scène normale et une anomalie dangereuse.

C'est une étape cruciale pour créer de vraies IA de sécurité qui ne se trompent pas et qui comprennent vraiment ce qui se passe dans nos rues et nos bâtiments.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le domaine de la Compréhension des Anomalies Vidéo (VAU) vise à décrire automatiquement les événements inhabituels dans des vidéos. Bien que l'intérêt pour cette tâche grandisse, son évaluation reste un défi majeur. Les benchmarks existants souffrent de deux limitations critiques :

Métriques basées sur les n-grammes (BLEU, ROUGE-L) : Elles mesurent le chevauchement lexical plutôt que la justesse factuelle. Elles échouent à capturer la nature libre et ancrée visuellement des réponses des grands modèles vision-langage (LVLM), pénalisant souvent des réponses factuellement correctes mais formulées différemment.
Évaluations par LLM : Les juges basés sur des LLM évaluent souvent la fluidité linguistique et la cohérence globale au détriment de la pertinence factuelle. Cela conduit à des jugements subjectifs qui ne sont pas alignés avec la perception humaine des anomalies, manquant de granularité pour identifier des erreurs spécifiques.

Il existe donc un besoin urgent d'un benchmark qui évalue la capacité des modèles à comprendre les éléments descriptifs clés d'une anomalie de manière fine et structurée.

2. Méthodologie

Les auteurs proposent une approche structurée en trois volets : la formulation du problème, la création d'un nouveau jeu de données et la définition d'une nouvelle métrique.

A. Formulation du Problème (What, Who, Where)

Le problème VAU est reformulé comme une tâche de compréhension fine divisée en trois dimensions hiérarchiques, alignées sur la perception humaine :

Quoi (Events) : Les actions, interactions et changements d'état (ex: "se battre", "incendie").
Qui (Entities) : Les entités impliquées et leurs attributs visuels saillants (ex: vêtements, âge, genre, marque d'un véhicule).
Où (Location) : Le contexte spatial et temporel (ex: environnement physique, heure de la journée, conditions d'éclairage, densité de foule).

B. Dataset : FineW³

Pour alimenter ce benchmark, les auteurs ont créé FineW³, un jeu de données enrichi contenant 1 544 vidéos issues de données CCTV (UCF-Crime et autres).

Pipeline d'annotation : Un processus entièrement automatisé et évolutif assisté par un LVLM (Gemini-2.5-Pro) a été utilisé pour décomposer les annotations humaines existantes.
Étapes :
1. Décomposition d'événements : Transformation des descriptions brutes en chaînes d'événements atomiques causalement liés.
2. Ancrage des entités : Identification des entités manquantes et enrichissement de leurs attributs physiques.
3. Description de la scène : Ajout d'informations contextuelles détaillées sur le lieu.
Statistiques : Le dataset contient 17 813 événements (dont 4 420 anormaux), 59 392 entités et 76 69 attributs de localisation, offrant une granularité sans précédent.

C. Métrique : FV-Score et FineVAU-Judge

Les auteurs introduisent FV-Score, une métrique d'évaluation alignée sur l'humain, calculée par un juge LLM (FineVAU-Judge).

Fonctionnement : Au lieu de comparer le texte entier, le juge vérifie la présence sémantique de chaque élément de vérité terrain (What, Who, Where) dans la réponse du modèle.
Échelle de notation :
- Qui et Où : Échelle binaire (0 = manquant/incorrect, 1 = présent/correct).
- Quoi : Échelle ternaire (0 = manquant, 0.5 = partiel, 1 = exact/complet).
Calcul final : Le score global est une somme pondérée des scores de chaque dimension ( $S(R) = \lambda_{what}J_{what} + \lambda_{who}J_{who} + \lambda_{where}J_{where}$ ). Les ablations montrent que donner plus de poids aux entités (Who) améliore la corrélation avec les jugements humains.

3. Contributions Clés

FineVAU : Un nouveau benchmark pour la VAU qui se concentre sur une évaluation fine-granulaire et alignée sur l'humain, basée sur les composantes structurelles des anomalies (Quoi, Qui, Où).
FV-Score : Une métrique basée sur LLM qui décompose l'évaluation en détection d'éléments clés, fournissant un feedback interprétable et évitant les biais de fluidité linguistique.
FineW³ : Un dataset de haute qualité enrichi avec des informations structurées et vérifiables via un pipeline d'augmentation automatique.
Analyse des Limites : Une évaluation exhaustive révélant des "angles morts" critiques des modèles actuels.

4. Résultats Expérimentaux

Les auteurs ont évalué cinq LVLMs state-of-the-art (Qwen2.5-VL, InternVL3, VideoLLaMA3, LLaVA-VID, LLaVA-OneVision) sur FineVAU.

Corrélation Humaine : FV-Score présente une corrélation supérieure avec les jugements humains (PCC = 0,61, Kendall's Tau = 0,56) par rapport aux métriques n-grammes (ROUGE-L, BLEU) et aux juges LLM existants (AnomEVAL, VAU-EVAL).
Performances des Modèles :
- Points forts : Les modèles excellent dans la compréhension d'informations statiques et grossières (environ 61,3 % de précision sur la localisation, bonne identification des environnements et de l'éclairage).
- Points faibles : Ils éprouvent de grandes difficultés avec la compréhension fine spatiale et temporelle. La précision moyenne pour les événements est très faible (12,2 %).
- Biais vers la normalité : Les modèles ont tendance à halluciner des événements normaux là où il y a des anomalies (ex: décrire un combat comme une conversation), car ils sont entraînés sur des données vidéo générales de haute qualité, contrairement aux vidéos de surveillance souvent de basse résolution et complexes.
- Cas spécifiques : Les modèles réussissent mieux sur les anomalies avec des indices visuels forts (explosions, incendies, arrestations avec uniformes) mais échouent sur des anomalies subtiles (vols à l'étalage, comportements discrets).
- Meilleur modèle : InternVL3 a obtenu les meilleures performances globales, bien que les modèles avec des contextes plus petits (LLaVA-OneVision) aient parfois mieux compris les événements que des modèles plus grands.

5. Signification et Conclusion

L'article FineVAU établit une nouvelle frontière pour l'évaluation de la compréhension des anomalies vidéo. Il démontre que, malgré leurs capacités impressionnantes de description générale, les LVLMs actuels échouent fondamentalement à percevoir les détails fins et les événements subtils nécessaires à une compréhension réelle des anomalies.

La contribution majeure réside dans le passage d'une évaluation basée sur la forme (langage) à une évaluation basée sur le fond (faits visuels structurés). Cela ouvre la voie à :

Le développement de données d'entraînement ciblées pour réduire les hallucinations.
L'induction d'une compréhension factuelle détaillée dans les modèles.
La validation rigoureuse de la prochaine génération de modèles capables de gérer la complexité des vidéos de surveillance réelles.

En somme, FineVAU fournit les outils nécessaires pour passer d'une "description vidéo" à une véritable "compréhension d'anomalie" fiable.