Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection

Cet article propose un cadre novateur de détection d'anomalies vidéo semi-supervisé et explicable qui exploite les descriptions d'activités et d'interactions d'objets générées par des modèles de langage multimodaux pour surpasser les méthodes existantes, notamment dans la détection d'anomalies complexes.

Furkan Mumcu, Michael J. Jones, Anoop Cherian, Yasin Yilmaz

Publié 2026-03-02
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🎥 Le Problème : Le Gardien de Nuit Fatigué

Imaginez un gardien de nuit qui doit surveiller des centaines de caméras de sécurité en même temps. Son travail ? Repérer tout ce qui est bizarre : quelqu'un qui court, un objet abandonné, ou une interaction étrange entre deux personnes.

Le problème, c'est que les systèmes actuels sont comme des gardiens qui ne voient que des pixels. Ils savent dire "il y a un mouvement anormal ici", mais ils ne comprennent pas pourquoi.

  • Est-ce qu'une personne est en train de voler un vélo ?
  • Est-ce qu'un chien court après un ballon (normal) ou est-ce qu'il traîne un sac de courses (bizarre) ?

Les anciens systèmes sont souvent aveugles aux interactions complexes et, surtout, ils ne peuvent pas expliquer leur décision avec des mots. C'est comme si le gardien criait "ALERT !" sans pouvoir dire ce qu'il a vu.


🧠 La Solution : Le "Traducteur Magique" (MLLM-EVAD)

Les auteurs de ce papier (Furkan Mumcu et son équipe) ont eu une idée brillante : au lieu de faire regarder les caméras à un ordinateur qui ne comprend que des maths, ils ont demandé à un super-intelligent traducteur (une Intelligence Artificielle de type "Grand Modèle de Langage Multimodal", ou MLLM) de décrire ce qui se passe.

Voici comment leur méthode fonctionne, étape par étape, avec une analogie simple :

1. Le Détective et ses Loupes (Détection et Suivi)

D'abord, le système repère les objets dans la vidéo (les gens, les voitures, les chiens) et les suit comme un détective qui colle une étiquette sur chacun d'eux. Il ne regarde pas toute la scène d'un coup, mais se concentre sur les objets individuels et les paires d'objets qui sont proches les uns des autres (comme deux personnes qui se parlent).

2. Le Journaliste de Terrain (Le MLLM)

C'est ici que la magie opère. Le système prend deux images de la même scène, prises à une seconde d'intervalle, et les montre à l'IA (le "Journaliste").

  • La question posée à l'IA : "Regarde ces deux images. Que font ces deux personnes dans les zones rouges ?"
  • La réponse de l'IA : "Une personne marche tranquillement sur le trottoir." ou "Un chien tire sur sa laisse."

Au lieu de stocker des millions de pixels, le système stocke des phrases. C'est comme si le système apprenait la "grammaire du comportement normal".

3. Le Mémorandum de la "Normalité" (Apprentissage)

Pendant la phase d'entraînement, le système lit des vidéos de scènes normales (sans crime ni accident). Il demande au Journaliste de décrire chaque action.

  • Il crée une bibliothèque de phrases qui représente la "normalité".
    • Exemple de phrase normale : "Deux personnes marchent côte à côte."
    • Exemple de phrase normale : "Une voiture roule sur la route."

Le système nettoie cette bibliothèque pour ne garder que les descriptions uniques et représentatives (comme un résumé concis d'un livre).

4. La Comparaison (Détection d'Anomalie)

Ensuite, vient le moment du test. Une nouvelle vidéo arrive.

  • Le système demande au Journaliste de décrire ce qui se passe : "Une personne est poussée dans une grande boîte par un autre individu."
  • Le système compare cette phrase à sa bibliothèque de "normalité".
  • Le verdict : "Attends... dans ma bibliothèque, je n'ai jamais vu 'une personne poussée dans une boîte'. La phrase la plus proche que j'ai est 'une personne marche sur le trottoir'. C'est trop différent !"
  • Résultat : Alerte ! C'est une anomalie.

🗣️ Pourquoi c'est génial ? (L'Explicabilité)

C'est là que la méthode change la donne.

  • Les anciens systèmes : "Alerte : Anomalie détectée à 14h02." (L'humain ne sait pas pourquoi).
  • Ce nouveau système : "Alerte : Anomalie détectée. Pourquoi ? Parce que le système a vu 'une personne poussée dans une boîte', alors que d'habitude, les gens 'marchent sur le trottoir'."

C'est comme si le gardien de nuit vous disait non seulement il y a un problème, mais qu'il vous racontait l'histoire de ce qui s'est passé. Cela rend la décision compréhensible et fiable.

🏆 Les Résultats

Les chercheurs ont testé leur méthode sur plusieurs bases de données :

  1. ComplexVAD : Un terrain de jeu rempli d'interactions bizarres (comme un chien sans laisse ou une personne sautant sur une voiture). Là, leur méthode a battu tous les autres, car elle comprend les relations entre les objets.
  2. Avenue et Street Scene : Des scènes de rue classiques. Même là, en combinant leur méthode avec d'autres techniques, ils ont obtenu les meilleurs résultats possibles.

🚀 En Résumé

Imaginez que vous apprenez à un enfant ce qu'est un comportement normal dans un parc. Vous ne lui montrez pas des millions de photos, vous lui dites : "Habituellement, les enfants jouent à la balle et les gens marchent."
Si un jour, vous voyez un enfant qui essaie de manger la balle, vous comprenez tout de suite que c'est bizarre, et vous pouvez l'expliquer : "C'est bizarre, les enfants ne mangent pas de balles !"

C'est exactement ce que fait ce papier : il donne à l'ordinateur la capacité de raconter l'histoire de ce qui se passe, pour mieux repérer ce qui ne va pas. C'est un pas de géant vers des systèmes de sécurité intelligents, capables de s'expliquer et de comprendre le monde comme nous le faisons.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →