Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

🎥 Le Problème : Le Gardien de Nuit Fatigué

Imaginez un gardien de nuit qui doit surveiller des centaines de caméras de sécurité en même temps. Son travail ? Repérer tout ce qui est bizarre : quelqu'un qui court, un objet abandonné, ou une interaction étrange entre deux personnes.

Le problème, c'est que les systèmes actuels sont comme des gardiens qui ne voient que des pixels. Ils savent dire "il y a un mouvement anormal ici", mais ils ne comprennent pas pourquoi.

Est-ce qu'une personne est en train de voler un vélo ?
Est-ce qu'un chien court après un ballon (normal) ou est-ce qu'il traîne un sac de courses (bizarre) ?

Les anciens systèmes sont souvent aveugles aux interactions complexes et, surtout, ils ne peuvent pas expliquer leur décision avec des mots. C'est comme si le gardien criait "ALERT !" sans pouvoir dire ce qu'il a vu.

🧠 La Solution : Le "Traducteur Magique" (MLLM-EVAD)

Les auteurs de ce papier (Furkan Mumcu et son équipe) ont eu une idée brillante : au lieu de faire regarder les caméras à un ordinateur qui ne comprend que des maths, ils ont demandé à un super-intelligent traducteur (une Intelligence Artificielle de type "Grand Modèle de Langage Multimodal", ou MLLM) de décrire ce qui se passe.

Voici comment leur méthode fonctionne, étape par étape, avec une analogie simple :

1. Le Détective et ses Loupes (Détection et Suivi)

D'abord, le système repère les objets dans la vidéo (les gens, les voitures, les chiens) et les suit comme un détective qui colle une étiquette sur chacun d'eux. Il ne regarde pas toute la scène d'un coup, mais se concentre sur les objets individuels et les paires d'objets qui sont proches les uns des autres (comme deux personnes qui se parlent).

2. Le Journaliste de Terrain (Le MLLM)

C'est ici que la magie opère. Le système prend deux images de la même scène, prises à une seconde d'intervalle, et les montre à l'IA (le "Journaliste").

La question posée à l'IA : "Regarde ces deux images. Que font ces deux personnes dans les zones rouges ?"
La réponse de l'IA : "Une personne marche tranquillement sur le trottoir." ou "Un chien tire sur sa laisse."

Au lieu de stocker des millions de pixels, le système stocke des phrases. C'est comme si le système apprenait la "grammaire du comportement normal".

3. Le Mémorandum de la "Normalité" (Apprentissage)

Pendant la phase d'entraînement, le système lit des vidéos de scènes normales (sans crime ni accident). Il demande au Journaliste de décrire chaque action.

Il crée une bibliothèque de phrases qui représente la "normalité".
- Exemple de phrase normale : "Deux personnes marchent côte à côte."
- Exemple de phrase normale : "Une voiture roule sur la route."

Le système nettoie cette bibliothèque pour ne garder que les descriptions uniques et représentatives (comme un résumé concis d'un livre).

4. La Comparaison (Détection d'Anomalie)

Ensuite, vient le moment du test. Une nouvelle vidéo arrive.

Le système demande au Journaliste de décrire ce qui se passe : "Une personne est poussée dans une grande boîte par un autre individu."
Le système compare cette phrase à sa bibliothèque de "normalité".
Le verdict : "Attends... dans ma bibliothèque, je n'ai jamais vu 'une personne poussée dans une boîte'. La phrase la plus proche que j'ai est 'une personne marche sur le trottoir'. C'est trop différent !"
Résultat : Alerte ! C'est une anomalie.

🗣️ Pourquoi c'est génial ? (L'Explicabilité)

C'est là que la méthode change la donne.

Les anciens systèmes : "Alerte : Anomalie détectée à 14h02." (L'humain ne sait pas pourquoi).
Ce nouveau système : "Alerte : Anomalie détectée. Pourquoi ? Parce que le système a vu 'une personne poussée dans une boîte', alors que d'habitude, les gens 'marchent sur le trottoir'."

C'est comme si le gardien de nuit vous disait non seulement où il y a un problème, mais qu'il vous racontait l'histoire de ce qui s'est passé. Cela rend la décision compréhensible et fiable.

🏆 Les Résultats

Les chercheurs ont testé leur méthode sur plusieurs bases de données :

ComplexVAD : Un terrain de jeu rempli d'interactions bizarres (comme un chien sans laisse ou une personne sautant sur une voiture). Là, leur méthode a battu tous les autres, car elle comprend les relations entre les objets.
Avenue et Street Scene : Des scènes de rue classiques. Même là, en combinant leur méthode avec d'autres techniques, ils ont obtenu les meilleurs résultats possibles.

🚀 En Résumé

Imaginez que vous apprenez à un enfant ce qu'est un comportement normal dans un parc. Vous ne lui montrez pas des millions de photos, vous lui dites : "Habituellement, les enfants jouent à la balle et les gens marchent."
Si un jour, vous voyez un enfant qui essaie de manger la balle, vous comprenez tout de suite que c'est bizarre, et vous pouvez l'expliquer : "C'est bizarre, les enfants ne mangent pas de balles !"

C'est exactement ce que fait ce papier : il donne à l'ordinateur la capacité de raconter l'histoire de ce qui se passe, pour mieux repérer ce qui ne va pas. C'est un pas de géant vers des systèmes de sécurité intelligents, capables de s'expliquer et de comprendre le monde comme nous le faisons.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La détection d'anomalies vidéo (VAD) en mode semi-supervisé (où seule la vidéo "normale" est disponible pour l'entraînement) fait face à deux défis majeurs :

Détection des anomalies complexes : Les méthodes existantes peinent à identifier les anomalies basées sur les interactions entre objets (par exemple, une personne poussant un autre individu, ou un chien sans laisse), se concentrant souvent sur des comportements individuels simples.
Manque d'explicabilité : La plupart des approches actuelles (basées sur la reconstruction de frames ou la prédiction) fonctionnent comme des "boîtes noires". Elles signalent une anomalie sans fournir d'explication textuelle ou sémantique sur pourquoi l'événement est anormal.

L'article se concentre sur le problème de la VAD semi-supervisée et mono-scène, où les anomalies sont spécifiques au contexte (ce qui est normal dans un lieu peut être anormal dans un autre), rendant les modèles multi-scènes moins efficaces.

2. Méthodologie : MLLM-EVAD

Les auteurs proposent un cadre novateur nommé MLLM-EVAD (MLLM-based Explainable Video Anomaly Detection). Au lieu de juger directement la présence d'une anomalie au niveau de la frame, la méthode modélise le comportement normal sous forme de descriptions textuelles de haute niveau.

Le pipeline se déroule en quatre étapes principales :

Détection et Suivi d'Objets :
- Utilisation d'un détecteur d'objets (Detectron2) et d'un suiveur (ByteTrack) pour extraire les objets dans chaque frame.
- Les objets sont suivis sur une fenêtre temporelle (30 frames).
- Appariement : Les objets sont appariés s'ils sont spatialement proches (distance 3D estimée via une pseudo-profondeur basée sur la position Y), permettant de modéliser les interactions. Les objets isolés sont traités séparément.
Génération de Descriptions Textuelles (MLLM) :
- Pour chaque paire d'objets (ou objet seul), deux crops d'images sont extraits : l'un à l'instant $t$ et l'autre à $t+\Delta$ (environ 1 seconde plus tard).
- Ces paires d'images sont envoyées à un Modèle de Langage Multimodal (MLLM) (Gemma 3 ou GPT-4o) avec un prompt spécifique demandant une description concise de l'activité et de l'interaction.
- Choix de conception : L'utilisation de crops d'images plutôt que de clips vidéo complets permet de conserver un ancrage spatial précis et une identité d'objet cohérente, évitant les descriptions trop génériques.
Construction du Modèle de Normalité (Exemplaires) :
- Les descriptions textuelles générées sont converties en vecteurs d'incorporation (embeddings) via un modèle de langage (Sentence-BERT).
- Un algorithme de sélection d'exemplaires est appliqué sur les vidéos d'entraînement pour éliminer les redondances. Cela crée un ensemble compact d'exemplaires représentatifs ( $E_{pair}$ pour les paires, $E_{single}$ pour les objets seuls) qui définissent le "comportement normal".
Détection d'Anomalies et Explicabilité :
- Lors du test, les descriptions des frames sont comparées à l'ensemble d'exemplaires.
- Le score d'anomalie est calculé comme l'inverse de la similarité cosinus maximale avec les exemplaires normaux.
- Explicabilité : Si une anomalie est détectée, le système peut afficher la description générée pour l'événement suspect et la comparer à la description de l'exemplaire normal le plus proche, fournissant ainsi une explication sémantique claire de la déviation.

3. Contributions Clés

Première approche basée sur MLLM pour les interactions : C'est la première méthode conçue spécifiquement pour détecter des anomalies complexes résultant d'interactions entre objets dans un cadre semi-supervisé mono-scène.
Représentation par déviation sémantique : Contrairement aux travaux précédents utilisant les MLLM pour juger directement la normalité, cette méthode utilise les descriptions MLLM pour construire une représentation du "normal" et détecte les anomalies via des écarts sémantiques.
Explicabilité intégrée : La méthode fournit naturellement des explications textuelles, rendant le processus de décision interprétable pour les opérateurs humains.
Compatibilité hybride : Le cadre peut être combiné avec des méthodes VAD traditionnelles (basées sur les trajectoires ou les graphes de scène) pour améliorer leurs performances et leur interprétabilité.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois jeux de données publics : ComplexVAD (spécialisé dans les interactions), Avenue et Street Scene.

Sur ComplexVAD : La méthode MLLM-EVAD surpasse les méthodes de l'état de l'art (SOTA) comme Scene-Graph et EVAL.
- Combinaison Scene-Graph + MLLM-EVAD : 25% (RBDC), 70% (TBDC), 63% (Frame-level).
- Cela démontre que les descriptions textuelles ajoutent une valeur significative pour détecter les interactions complexes.
Sur Avenue et Street Scene : La combinaison avec la méthode Tracklet EVAL (la meilleure méthode existante pour ces datasets) améliore les résultats SOTA, notamment sur les critères de localisation spatio-temporelle (RBDC et TBDC).
Évaluation de l'explicabilité : Une étude humaine sur 10 clips anormaux a montré que les explications générées par le modèle sont jugées aussi informatives que des annotations humaines (moyenne de 3.8/5 vs 4.2/5).
Ablation : L'utilisation de Gemma 3 a donné de meilleurs résultats que GPT-4o, probablement grâce à des descriptions plus détaillées et contextuelles. L'utilisation d'embeddings (Sentence-BERT) est préférée aux métriques de texte brut (BLEU/METEOR) pour l'efficacité et la performance globale.

5. Signification et Impact

Ce travail marque un tournant dans la VAD en passant d'une modélisation au niveau des pixels ou des trajectoires à une modélisation sémantique de haut niveau.

Avantage principal : Il résout le problème de l'opacité des modèles de détection d'anomalies en fournissant des justifications textuelles, ce qui est crucial pour les applications de sécurité où la confiance humaine est requise.
Limites et Perspectives : La méthode repose sur des modèles MLLM coûteux en calcul, ce qui limite son déploiement en temps réel. Les auteurs suggèrent des travaux futurs sur le fine-tuning de modèles plus petits et l'intégration de la détection d'objets "open-vocabulary" pour généraliser à des environnements non contraints.
Impact sociétal : L'article aborde également les risques éthiques (vie privée, biais des données) et recommande l'utilisation de ce système comme outil d'aide à la décision (humain dans la boucle) plutôt que comme système de prise de décision autonome.

En résumé, cette recherche démontre que l'intégration de modèles de langage multimodaux permet non seulement d'améliorer la précision de détection des anomalies complexes, mais aussi de rendre ces systèmes intelligibles et dignes de confiance pour des applications réelles de surveillance.