Language-guided Open-world Video Anomaly Detection under Weak Supervision

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes le chef de la sécurité d'un grand complexe. Votre travail est de surveiller des centaines de caméras vidéo pour repérer tout ce qui ne va pas.

1. Le Problème : La Règle du Jeu Change

Jusqu'à présent, les systèmes de sécurité intelligents (les IA) fonctionnaient comme un chien de garde très rigide.

Si le chien a été entraîné à aboyer sur les voleurs, il aboiera sur les voleurs.
Mais imaginez la situation suivante : En temps normal, voir quelqu'un courir dans le couloir est normal (un employé pressé). Mais pendant une épidémie de grippe, courir sans masque devient dangereux et donc "anormal".

Les anciens systèmes ne comprennent pas ce changement. Pour eux, "courir" restera toujours "normal", même si les règles du monde changent. C'est ce que les chercheurs appellent le "dérive de concept" (ou concept drift). Le monde change, mais l'IA reste figée dans son passé.

2. La Solution : Un Gardien qui Écoute la Voix

Les auteurs de ce papier (Zihao Liu et son équipe) ont créé un nouveau système appelé LaGoVAD.
Au lieu d'avoir un chien de garde qui aboie tout seul, ils ont créé un gardien qui écoute votre voix.

L'analogie du "Guide Vocal" : Imaginez que vous pouvez parler à votre caméra. Vous lui dites : "Aujourd'hui, je m'inquiète des gens qui ne portent pas de masque" ou "Attention, je veux repérer les voitures qui roulent à contre-sens".
Le système LaGoVAD prend cette instruction en langage naturel (votre phrase) et ajuste immédiatement ses lunettes pour chercher ce comportement précis. Si vous changez d'instruction demain, le système s'adapte instantanément.

3. Le Défi : Apprendre à un Enfant sans Livre de Recette

Pour entraîner ce gardien flexible, il y a un gros problème : les bases de données existantes sont comme des livres de cuisine avec seulement des photos de plats, sans les ingrédients ni les étapes. On sait qu'il y a un "accident", mais on ne sait pas comment le décrire précisément.

Pour résoudre cela, les chercheurs ont construit PreVAD, la plus grande bibliothèque de vidéos d'anomalies jamais créée.

L'analogie du "Grand Livre d'Histoires" : Au lieu de juste dire "Accident", ils ont annoté chaque vidéo avec une histoire détaillée : "Un camion renverse une poubelle dans un entrepôt".
Ils ont utilisé des IA très puissantes pour lire des millions de vidéos sur internet, les nettoyer et écrire ces descriptions automatiquement, puis des humains ont vérifié le travail. C'est comme si on avait écrit des milliers de livres d'histoires pour apprendre à l'IA à comprendre le monde.

4. Comment ça marche ? (La Cuisine de l'IA)

Pour que ce système soit aussi fort et ne fasse pas d'erreurs (comme confondre un chat avec un chien), ils ont utilisé deux astuces de cuisine :

Le "Mélange Dynamique" (Synthèse de vidéo) :
Imaginez que vous apprenez à un enfant à reconnaître un gâteau. Si vous ne lui montrez que des gâteaux entiers, il aura du mal à comprendre ce qui se passe si on enlève une part.
Les chercheurs prennent des vidéos et les "cousent" ensemble de manière intelligente pour créer de nouvelles situations. Ils allongent ou raccourcissent les moments d'accidents pour que l'IA apprenne que la durée d'un événement ne change pas sa nature. C'est comme si on entraînait le gardien avec des milliers de scénarios différents, pas juste les mêmes.
Le "Jeu de Comparaison" (Apprentissage par contraste) :
C'est comme un jeu de "trouve l'intrus". On montre à l'IA une vidéo normale et une vidéo anormale, et on lui demande : "Laquelle correspond à ma description ?". En répétant ce jeu des milliers de fois avec des exemples difficiles, l'IA devient un expert pour distinguer le vrai du faux.

5. Les Résultats : Le Champion du Monde

L'équipe a testé leur système sur 7 mondes différents (villes, routes, usines, crimes, etc.) sans jamais le réentraîner pour ces nouveaux endroits.

Le résultat : LaGoVAD a battu tous les autres systèmes existants.
Pourquoi ? Parce qu'il ne se contente pas de mémoriser des images. Il comprend le sens de ce que vous lui demandez. Si vous lui dites "Cherche les voleurs", il cherche les voleurs. Si vous dites "Cherche les incendies", il cherche les incendies.

En Résumé

Ce papier nous dit que pour surveiller un monde qui change constamment, nous ne pouvons plus utiliser des caméras "bêtes" qui suivent des règles fixes. Nous avons besoin de caméras intelligentes et communicatives qui peuvent écouter nos instructions en langage humain et s'adapter instantanément à la situation, comme un gardien de sécurité humain mais avec la puissance d'un ordinateur.

Ils ont fourni les outils (le nouveau modèle LaGoVAD et la gigantesque base de données PreVAD) pour que tout le monde puisse construire ce futur de surveillance flexible.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : La Dérive de Concept dans la Détection d'Anomalies Vidéo

La détection d'anomalies vidéo (VAD) vise à identifier des événements déviant des comportements attendus. Cependant, les méthodes existantes opèrent principalement dans des cadres fermés (closed-set) ou ouverts (open-set) avec une définition fixe des anomalies.

L'article identifie une limitation critique pour les scénarios monde ouvert : la dérive de concept (concept drift).

Le problème : La définition de ce qui est "anormal" n'est pas statique ; elle dépend du contexte, des politiques temporelles ou des besoins spécifiques de l'utilisateur.
Exemple : Marcher sur une route est normal dans un dataset de criminalité urbaine, mais devient anormal sur une autoroute (freeway). De même, ne pas porter de masque peut être anormal lors d'une épidémie de grippe, mais normal le reste du temps.
Limitation actuelle : Les modèles traditionnels apprennent une distribution fixe $P(Y|V)$ (probabilité d'anomalie étant donné la vidéo). Si la définition change ( $Z$ ), cette probabilité change, entraînant une défaillance du modèle car $P_{train}(Y|V) \neq P_{test}(Y|V)$ .

2. Méthodologie : Le Paradigme LaGoVAD

Les auteurs proposent un nouveau paradigme : la Détection d'Anomalies Vidéo en Monde Ouvert Guidée par le Langage (Language-Guided Open-World VAD).

A. Formulation Théorique

Au lieu de modéliser $\Phi: V \to Y$ , le modèle apprend une fonction conditionnelle $\Phi: (V, Z) \to Y$ , où :

$V$ est la vidéo.
$Z$ est la définition de l'anomalie (exprimée en langage naturel).
$Y$ est le label d'anomalie.

L'hypothèse fondamentale est que l'étiquette d'anomalie est déterminée uniquement par la vidéo et la définition fournie. En conditionnant la prédiction sur $Z$ , le modèle évite théoriquement la dérive de concept, car la relation $P(Y|V, Z)$ reste invariante même si la distribution des définitions change entre l'entraînement et le test.

B. Architecture du Modèle : LaGoVAD

Le modèle LaGoVAD (Language-guided Open-world Video Anomaly Detector) est conçu pour implémenter ce paradigme sous supervision faible (seuls des labels vidéo, pas de frames, sont disponibles).

Entrées : Une vidéo $v$ et une définition textuelle $z$ (nom de classe ou description détaillée).
Encodage :
- Vidéo : Un encodeur CLIP (images) suivi d'un encodeur temporel (Transformer) pour extraire les caractéristiques visuelles.
- Texte : Un encodeur CLIP (texte) pour les définitions d'anomalies.
Fusion : Un module de fusion basé sur Transformer (co-attention) combine les caractéristiques visuelles et textuelles.
Têtes de prédiction :
- Une tête de détection binaire pour obtenir un score d'anomalie par frame.
- Une tête de classification multi-classes pour identifier le type d'anomalie.

C. Stratégies de Régularisation

Pour éviter le surapprentissage (overfitting) dans cet espace multimodal complexe et dense, deux stratégies clés sont introduites :

Synthèse Vidéo Dynamique (Dynamic Video Synthesis) :
- Problème : Les anomalies réelles occupent souvent une petite fraction de la vidéo, mais les datasets web sont biaisés vers des vidéos où l'anomalie est omniprésente.
- Solution : Le module synthétise dynamiquement des vidéos en concaténant des segments sémantiquement similaires (via KNN) pour créer des séquences avec des durées d'anomalies variables.
- Objectif : Générer des pseudo-labels temporels précis pour apprendre au modèle à distinguer les contextes normaux des événements anormaux, diversifiant ainsi la distribution des durées.
Apprentissage Contrastif avec Mining de Négatifs Durs (Hard Negative Mining) :
- Problème : La frontière entre "normal" et "anormal" est floue.
- Solution : Le modèle agrège les caractéristiques visuelles en fonction des scores d'anomalie pour créer des représentations de "premier plan" (anomalie) et de "arrière-plan" (normal).
- Objectif : Utiliser une perte contrastive pour aligner finement les caractéristiques vidéo avec les descriptions textuelles, en traitant spécifiquement les parties normales d'une vidéo anormale comme des "négatifs durs" pour améliorer la discrimination.

3. Contribution Majeure : Le Dataset PreVAD

Pour entraîner ce modèle, les auteurs constatent que les datasets existants manquent de diversité et de descriptions sémantiques. Ils introduisent PreVAD (Pre-training Video Anomaly Dataset) :

Échelle : Le plus grand dataset d'anomalies vidéo à ce jour avec 35 279 vidéos (209,5 heures), dont 11 979 vidéos anormales.
Diversité : Couvre 7 catégories de haut niveau (Violence, Accident de véhicule, Incendie, Vol, Accident quotidien, Violence animale, Accident de production) et 35 sous-catégories.
Annotation Sémantique : Contrairement aux datasets précédents qui n'ont que des étiquettes de classe, PreVAD inclut des descriptions textuelles détaillées pour chaque anomalie, générées via un pipeline hybride Humain-IA (utilisant des LLM/MLLM).
Source : Collecté via un pipeline évolutif utilisant des modèles de base pour le nettoyage et l'annotation, combinant des datasets existants, des vidéos web et des flux en direct.

4. Résultats Expérimentaux

Les évaluations sont menées selon deux protocoles "Zero-Shot" (sans ré-entraînement sur les données de test) sur 7 datasets benchmarks (UCF-Crime, XD-Violence, MSAD, etc.).

Protocole 1 (Généralisation Monde Ouvert) : Test sur des datasets totalement différents avec des définitions d'anomalies variées.
- Résultat : LaGoVAD bat l'état de l'art (SOTA) sur tous les datasets. Par exemple, amélioration de 20% en détection et 32% en classification sur XD-Violence par rapport aux méthodes précédentes.
- Il surpasse également les méthodes basées sur les LLM (comme Qwen2-VL) qui, bien qu'elles comprennent le texte, échouent souvent à localiser précisément l'anomalie dans le temps.
Protocole 2 (Robustesse à la Dérive de Concept) : Test sur un même dataset avec différentes définitions d'anomalies (sous-ensembles de catégories considérés comme anormaux).
- Résultat : LaGoVAD démontre une robustesse supérieure face aux changements de définition (mesuré par drift@5), confirmant que le conditionnement par le langage permet d'adapter la détection dynamiquement sans réentraînement.
Études d'Ablation :
- La suppression de la synthèse vidéo dynamique ou de la perte contrastive entraîne une baisse significative des performances.
- L'utilisation du dataset PreVAD seul (sans LaGoVAD) améliore déjà les performances de modèles de base (VadCLIP) de manière drastique, prouvant l'importance de la diversité des données.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine de la vision par ordinateur pour plusieurs raisons :

Changement de Paradigme : Il passe d'une détection statique à une détection dynamique et conditionnelle, résolvant le problème fondamental de la dérive de concept dans les applications réelles où les règles changent.
Interaction Humain-Machine : En permettant aux utilisateurs de définir les anomalies via le langage naturel, le système devient adaptable à des besoins spécifiques (ex: hôpital vs autoroute) sans nécessiter de réentraînement coûteux.
Ressource de Données : La création de PreVAD comble un vide critique en fournissant un dataset massif, diversifié et sémantiquement riche, essentiel pour l'entraînement de modèles multimodaux robustes.
Efficacité : Contrairement aux méthodes basées sur de gros LLM multimodaux qui sont lentes et coûteuses en calcul, LaGoVAD offre des performances SOTA avec une architecture plus légère et une inférence rapide.

En résumé, LaGoVAD et PreVAD établissent une nouvelle référence pour la détection d'anomalies vidéo en monde ouvert, démontrant que l'intégration de définitions textuelles dynamiques est la clé pour gérer l'incertitude et la variabilité des environnements réels.