Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild
Bien que les grands modèles multimodaux (MLLM) offrent une nouvelle approche pour la détection d'anomalies vidéo via le raisonnement linguistique, cette étude révèle que leur utilisation en mode zéro-shot sur des benchmarks réels souffre d'un biais conservateur entraînant un effondrement du rappel, bien que des instructions spécifiques puissent significativement améliorer les performances globales.