Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection
Este artigo apresenta um novo framework de detecção de anomalias em vídeo semi-supervisionado que utiliza Modelos de Linguagem Multimodais (MLLMs) para gerar descrições textuais de interações entre objetos, superando as limitações de métodos existentes ao detectar anomalias complexas com alto nível de explicabilidade e desempenho de ponta.