Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild
Este trabajo evalúa la viabilidad de los modelos de lenguaje multimodal para la detección de anomalías en vídeo en entornos reales, revelando que, aunque su rendimiento cero-disparo es inicialmente limitado por un sesgo conservador que reduce drásticamente la recuperación, el uso de instrucciones específicas puede mejorar significativamente la puntuación F1, aunque la recuperación sigue siendo un cuello de botella crítico.