Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Each language version is independently generated for its own context, not a direct translation.

🎥 Le Grand Test : Les "Super-Cerveaux" sont-ils prêts à surveiller nos rues ?

Imaginez que vous avez embauché les meilleurs détectives du monde (les Modèles de Langage Multimodaux ou MLLM, comme les versions avancées de ChatGPT ou Gemini) pour qu'ils surveillent des caméras de sécurité 24h/24. Votre but ? Qu'ils repèrent instantanément n'importe quelle situation bizarre : un vol, une chute, une bagarre.

Les chercheurs de l'Université de Caroline du Nord ont voulu voir si ces détectives virtuels étaient vraiment prêts pour le terrain, ou s'ils étaient juste de brillants théoriciens.

1. Le Problème : Le Détective Trop Peureux 🐢

Dans le monde réel, une caméra de surveillance ne voit pas des scènes de film parfaites. C'est souvent flou, il y a du monde, de la pluie, et les "choses bizarres" sont rares.

Ce que les chercheurs ont découvert, c'est que ces super-intelligences ont un défaut majeur : elles sont trop prudentes.

L'analogie : Imaginez un gardien de sécurité qui a peur de se tromper. S'il voit un mouvement, il se dit : "Attends, c'est peut-être juste un chat ou un enfant qui joue. Je ne vais pas crier 'Au voleur !' pour rien."
Le résultat : Ces modèles sont excellents pour ne pas crier faux (ils ont une précision de 100 %), mais ils ratent presque tout ce qui est vraiment dangereux (leur rappel est catastrophique, souvent moins de 5 %). Ils préfèrent ne rien voir plutôt que de faire une erreur.

2. L'Expérience : Donner des Indices au Détective 🕵️‍♂️

Pour voir si on pouvait les aider, les chercheurs ont changé la façon dont ils parlaient aux modèles. C'est comme donner des instructions à un nouvel employé.

Ils ont testé trois types de "notes" (prompts) :

La note vague : "Regarde cette vidéo, y a-t-il quelque chose d'étrange ?" (Le modèle reste confus et prudent).
La note détaillée : Une longue explication de ce qu'est une anomalie. (Parfois trop long, le modèle se perd dans les détails).
La note ciblée (La clé du succès) : "Cherche spécifiquement des gens qui courent dans les zones interdites ou qui volent des objets."

La révélation : Dès qu'on donne des instructions précises sur ce qu'il faut chercher (le contexte de la "classe" d'anomalie), le détective se réveille !

Sur l'un des tests, le score de réussite est passé de 9 % à 64 % simplement en changeant la phrase d'instruction. C'est comme passer d'un gardien qui dort à un gardien qui a reçu une photo du voleur à chercher.

3. Le Temps : Une seconde suffit-elle ? ⏱️

Les chercheurs ont aussi demandé aux modèles de regarder des vidéos très courtes (1 seconde, 2 secondes, 3 secondes).

La découverte : Regarder un peu plus longtemps (3 secondes) aide souvent le modèle à comprendre le contexte, un peu comme si on regardait un film au lieu d'une photo. Mais attention : si la vidéo est de très haute qualité et très complexe, avoir plus de temps ne suffit pas toujours à résoudre le mystère. Le modèle peut encore être perdu.

4. La Conclusion : Pas encore de remplacement pour l'humain 🚫🤖

Alors, sommes-nous prêts à remplacer tous les gardiens de sécurité par des IA ? Pas tout à fait.

Le verdict : Ces modèles sont intelligents, mais ils sont "conservateurs". Sans instructions très précises, ils sont trop lents à réagir face au danger.
L'analogie finale : Actuellement, utiliser ces IA pour la surveillance, c'est comme avoir un détective génial qui a peur de se tromper. Il faut lui tenir la main et lui dire exactement quoi chercher, sinon il restera assis à attendre que le danger soit évident... ce qui est souvent trop tard.

En résumé : L'avenir est prometteur, mais pour que ces "yeux numériques" soient utiles dans la vraie vie, il ne suffit pas de les rendre plus intelligents. Il faut apprendre à leur parler correctement pour qu'ils osent enfin signaler le danger.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article aborde le défi de l'Détection d'Anomalies Vidéo (VAD) dans des environnements de surveillance réels. Bien que les Modèles de Langage Multimodaux (MLLMs) aient démontré des compétences impressionnantes dans la compréhension vidéo sur des benchmarks curatés (comme LVBench ou MMBench-Video), leur fiabilité opérationnelle dans des scénarios de surveillance "sauvages" (non contrôlés, bruyants, contextuels) reste largement inexplorée.

Les systèmes de surveillance traditionnels reposent souvent sur la reconstruction ou des indices de posture, mais les MLLMs offrent un changement de paradigme : traiter la détection d'anomalies comme une tâche de raisonnement guidée par le langage. Cependant, plusieurs obstacles persistent :

Le biais de décision : Les modèles ont tendance à être excessivement prudents, favorisant la classe "normale" par défaut.
Le fossé décisionnel : Les métriques de classement (AUC-ROC) utilisées dans la recherche ne traduisent pas directement les seuils d'alerte nécessaires pour des systèmes en temps réel.
La complexité du contexte : Une action peut être normale dans un parc mais suspecte dans une zone restreinte, ce qui nécessite une compréhension sémantique profonde que les modèles actuels peinent à appliquer sans entraînement spécifique.

2. Méthodologie

Les auteurs proposent un cadre d'évaluation systématique transformant la VAD en un problème de classification binaire sous une supervision temporelle faible.

Architecture du système :
- Les flux vidéo sont découpés en clips de durée fixe ( $t \in \{1s, 2s, 3s\}$ ).
- Les étiquettes au niveau des images (frame-level) sont propagées au niveau du clip : un clip est considéré comme anormal s'il contient au moins une image anormale (règle "any-anomaly").
- Le MLLM (principalement Gemini 2.5 Flash Lite, choisi pour sa capacité native à analyser le flux vidéo sans prétraitement en "filmstrip") reçoit le clip vidéo et un prompt textuel pour décider si le clip est anormal (1) ou normal (0).
Variables expérimentales :
- Spécificité du Prompt : Les auteurs comparent des prompts générés par des humains et par d'autres LLMs, variant en longueur (court, moyen, long) et en détail.
- Contexte de classe ("+ class") : Une variation cruciale consiste à ajouter des instructions spécifiques définissant explicitement ce qu'est une "anomalie" (ex: "comportement humain inattendu, dangereux ou inhabituel") pour contrer le biais conservateur du modèle.
- Fenêtres temporelles : Évaluation de l'impact de la durée du clip (1s, 2s, 3s) sur la sensibilité du modèle.
Données : L'évaluation est menée sur deux benchmarks : ShanghaiTech (données de surveillance classiques) et CHAD (Charlotte Anomaly Dataset, plus complexe, haute résolution, environnements réels).

3. Contributions Clés

Formulation orientée déploiement : Contrairement aux approches de classement, cette étude force le modèle à prendre une décision binaire exécutable, simulant les contraintes d'un système de surveillance réel.
Analyse contrôlée du Prompting : Identification de la manière dont la granularité des instructions (concision vs détail) et l'inclusion de contexte sémantique spécifique influencent les jugements du modèle.
Évaluation de la réalité de la surveillance : Démonstration que les performances sur des datasets curatés ne garantissent pas la réussite sur des données réelles, et analyse de l'impact de la résolution et du contexte temporel.

4. Résultats Principaux

Les résultats révèlent un écart significatif entre la compréhension vidéo générale et la fiabilité opérationnelle :

Biais Conservateur (Zero-Shot) : Sans instructions spécifiques, les modèles affichent une précision très élevée (souvent 100%) mais un rappel (recall) catastrophique (< 5%). Ils refusent de déclencher des alertes par peur de faux positifs, rendant le système inutile en pratique.
Impact du Prompting de Classe : L'ajout d'instructions spécifiques ("+ class") est le facteur le plus déterminant.
- Sur ShanghaiTech, le score F1 passe de 0,09 (sans classe) à 0,64 (avec classe) pour la configuration optimale (GPT instant medium + class).
- Sur CHAD, l'amélioration est similaire mais les scores absolus restent plus bas (F1 max de 0,48), soulignant la difficulté accrue des environnements réels.
Longueur du Prompt : Contrairement à l'intuition, des prompts plus longs et détaillés n'améliorent pas systématiquement les performances. Les prompts de longueur "moyenne" ont souvent surpassé les prompts "longs", suggérant que le bruit sémantique excessif peut distraire le moteur de raisonnement.
Fenêtre Temporelle : L'augmentation de la durée du clip (de 1s à 3s) aide généralement sur ShanghaiTech (plus de contexte temporel pour distinguer les mouvements), mais les gains sont marginaux ou négatifs sur CHAD, indiquant que la simple extension temporelle ne résout pas la confusion sémantique dans des environnements complexes.

5. Signification et Conclusion

Cette étude met en lumière que les MLLMs actuels, bien qu'impressionnants, ne sont pas encore prêts pour une surveillance autonome fiable en mode "zero-shot".

Le goulot d'étranglement n'est pas la vision, mais l'intention : Les modèles ne manquent pas de "voir" les anomalies, mais manquent de la "confiance catégorielle" nécessaire pour les signaler sans guidance explicite.
Calibration nécessaire : Pour des applications de sécurité réelles, il est impératif de développer des stratégies de prompting axées sur le rappel (recall-oriented) et de calibrer les modèles pour accepter un taux de faux positifs plus élevé afin de ne pas manquer d'événements critiques.
Futur travail : La recherche future doit se concentrer sur l'alignement des définitions d'anomalies avec le contexte spécifique et l'établissement de protocoles d'évaluation qui reflètent les exigences des seuils de décision des systèmes de surveillance, plutôt que de simples métriques de classement.

En résumé, l'article fournit une "réalité" nécessaire : les MLLMs sont des moteurs de raisonnement puissants, mais leur application à la sécurité publique nécessite une ingénierie rigoureuse des prompts et une calibration des seuils de décision pour passer de la compréhension théorique à la détection opérationnelle.

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

🎥 Le Grand Test : Les "Super-Cerveaux" sont-ils prêts à surveiller nos rues ?

1. Le Problème : Le Détective Trop Peureux 🐢

2. L'Expérience : Donner des Indices au Détective 🕵️‍♂️

3. Le Temps : Une seconde suffit-elle ? ⏱️

4. La Conclusion : Pas encore de remplacement pour l'humain 🚫🤖

1. Problématique et Contexte

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

5. Signification et Conclusion

Articles similaires

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics