Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild
Diese Studie zeigt, dass multimodale große Sprachmodelle im Zero-Shot-Setting für die Videoanomalieerkennung zwar präzise, aber aufgrund einer starken Verzerrung zugunsten normaler Ereignisse unzureichend zuverlässig sind, wobei spezifische Anweisungen die Leistung zwar signifikant verbessern können, die Erkennungsrate jedoch weiterhin eine kritische Schwachstelle bleibt.