No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection
O artigo apresenta o LAVIDA, um framework de detecção de anomalias em vídeo zero-shot que alcança desempenho superior ao estado da arte ao utilizar um Amoestrador de Exposição a Anomalias e um Modelo de Linguagem Multimodal (MLLM) para treinar exclusivamente com pseudo-anomalias, superando assim a escassez de dados reais e a falta de diversidade em cenários do mundo real.