Leveraging Multimodal LLM Descriptions of Activity for Explainable Semi-Supervised Video Anomaly Detection
Il paper propone un nuovo framework semi-supervisionato per la rilevazione di anomalie video che sfrutta le descrizioni testuali di attività e interazioni generate da Modelli Linguistici Multimodali (MLLM) per migliorare sia l'efficacia nel rilevare anomalie complesse sia l'interpretabilità dei risultati.