Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este artículo es como una prueba de fuego para un nuevo tipo de "guardia de seguridad" digital.

Aquí tienes la explicación de la investigación, traducida a un lenguaje sencillo y con analogías de la vida real:

🕵️‍♂️ La Gran Idea: ¿Puede un "Cerebro Digital" vigilar calles reales?

Los autores del estudio (un equipo de la Universidad de Carolina del Norte) se preguntaron: "¿Son los nuevos modelos de Inteligencia Artificial que entienden video y texto (llamados MLLMs) lo suficientemente inteligentes para detectar crímenes o accidentes en tiempo real?"

Antes, las cámaras de seguridad usaban sistemas viejos que solo miraban si algo se movía de forma extraña (como un auto que va muy rápido). Pero estos nuevos modelos son como detectives con superpoderes: pueden "leer" la escena, entender el contexto y razonar si algo es peligroso, no solo si algo se mueve.

🚦 El Problema: El "Guardia" que tiene miedo de equivocarse

Los investigadores probaron a estos modelos (como Gemini y GPT) en dos escenarios:

ShanghaiTech: Un video de vigilancia "estándar".
CHAD: Un video de vigilancia más realista, con más ruido y gente.

¿Qué descubrieron?
El modelo actúa como un guardia de seguridad extremadamente tímido y conservador.

Su lógica: "Si no estoy 100% seguro de que es un crimen, mejor no digo nada".
El resultado: Cuando el modelo dice "¡Hay un crimen!", suele tener razón (es muy preciso). PERO, el problema es que se queda callado la mayoría de las veces. Ignora la mayoría de los crímenes reales porque tiene miedo de levantar la mano por una equivocación.

La analogía: Imagina un detector de metales en el aeropuerto que está tan asustado de alarmar por un falso positivo (como un cinturón) que decide no sonar nunca, ni siquiera cuando alguien lleva un cuchillo. Es muy "preciso" (nunca falla al decir sí), pero inútil porque no detecta nada real.

🛠️ La Solución: Darle un "Guion" más claro

Los investigadores probaron diferentes formas de pedirle al modelo que trabajara (lo que llaman "prompts" o instrucciones).

Instrucciones vagas: "¿Hay algo raro en este video?" -> El modelo sigue siendo tímido y no ve nada.
Instrucciones específicas (La clave del éxito): Le dijeron al modelo: "Busca específicamente comportamientos peligrosos como peleas, robos o caídas. Si ves algo así, ¡grita!".

El resultado fue mágico:
Al darle instrucciones más claras y específicas sobre qué buscar exactamente, el modelo dejó de ser tímido.

En el video de ShanghaiTech, su capacidad para detectar crímenes reales (llamado "Recall") saltó de un 4% a un 53%.
Básicamente, al darle un "mapa del tesoro" (instrucciones específicas), el detective digital dejó de ignorar las pistas.

⏱️ El Tiempo: ¿Más video es mejor?

También probaron si mostrarle al modelo videos más largos (de 1 segundo, 2 segundos o 3 segundos) ayudaba.

En videos simples: Ver un poco más de tiempo ayudó al modelo a entender mejor la acción.
En videos complejos (reales): Ver más tiempo no siempre ayudó. A veces, más información solo confundió al modelo, como si le dieras a un detective demasiados testimonios contradictorios y no supiera qué creer.

💡 La Conclusión: ¿Están listos para la calle?

Respuesta corta: No del todo, pero están mejorando rápido.

Lo bueno: Estos modelos pueden entender videos y razonar, algo que antes era imposible para las cámaras de seguridad.
Lo malo: Sin ayuda, son demasiado cautelosos. En un mundo real donde un error puede costar vidas, no puedes tener un sistema que ignore el 90% de los problemas.
El futuro: No se trata de hacer cámaras más nítidas (mejor calidad de video), sino de enseñarles mejor a los modelos cómo pensar. Necesitamos "prompting" (instrucciones) inteligentes que les den confianza para actuar cuando sea necesario.

En resumen:
Los modelos de IA actuales son como detectives brillantes pero muy nerviosos. Si les das un caso genérico, se quedan paralizados. Pero si les das una lista clara de "lo que debes buscar", se convierten en herramientas poderosas para la seguridad. El reto ahora es afinar esas instrucciones para que no se pierdan en el ruido de la vida real.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: ¿Están listos los MLLM para la vigilancia? Una verificación de la realidad en la detección de anomalías cero-shot en entornos reales

1. Planteamiento del Problema

Los Modelos de Lenguaje Multimodal (MLLM) han demostrado una competencia general impresionante en la comprensión de video, evolucionando de simples clasificadores visuales a motores de razonamiento general. Sin embargo, su fiabilidad en aplicaciones críticas del mundo real, como la Detección de Anomalías en Video (VAD) para vigilancia, sigue siendo inexplorada.

El problema central identificado es la brecha entre los benchmarks curados (que suelen tener narrativas claras y vistas limpias) y el entorno de vigilancia real (ruidoso, ambiguo, con oclusiones y eventos anómalos raros).

El Desafío de la Decisión: La mayoría de los estudios actuales se centran en métricas de clasificación (como AUC-ROC) que son útiles para comparaciones offline, pero no definen los límites de decisión accionables necesarios para sistemas en tiempo real.
El Sesgo Conservador: En configuraciones zero-shot (sin entrenamiento específico), los MLLM tienden a un sesgo conservador extremo: priorizan la precisión (raramente alertan falsamente) a expensas de una recuperación (recall) catastrófica, fallando en detectar la gran mayoría de eventos anómalos reales.

2. Metodología

Los autores proponen un marco de trabajo que reformula la VAD como una tarea de clasificación binaria guiada por prompts bajo supervisión temporal débil, en lugar de depender de métodos tradicionales de reconstrucción o desviación de pose.

Configuración del Experimento:
- Modelos: Se evaluaron MLLM de última generación, incluyendo variantes de Gemini (Fast, Pro, 2.5 Flash Lite) y GPT (Instant, Thinking). Se seleccionó Gemini 2.5 Flash Lite como modelo principal para la evaluación zero-shot debido a su capacidad de análisis de video nativo sin necesidad de preprocesamiento de "frankstrip" (conversión manual a fotogramas), preservando la continuidad temporal.
- Datasets: Se utilizaron dos benchmarks de vigilancia: ShanghaiTech (SHT) y CHAD (Charlotte Anomaly Dataset). CHAD presenta mayor resolución y complejidad que SHT.
- Preparación de Datos: Los videos se dividieron en clips no superpuestos de 1s, 2s y 3s. Las etiquetas a nivel de fotograma se propagaron a nivel de clip usando la regla "cualquier anomalía" (si un fotograma es anómalo, todo el clip lo es).
- Diseño de Prompts: Se investigó el impacto de la especificidad del prompt mediante cuatro configuraciones:
  1. Base: Prompt humano estándar.
  2. Generados: Prompts creados por LLMs con diferentes niveles de detalle (Corto, Medio, Largo).
  3. Contexto de Clase (+ class): Se añadió instrucción explícita sobre qué tipos de comportamientos anómalos buscar (ej. "comportamiento inseguro, inusual o inesperado").
Flujo de Trabajo:
1. Entrada de video $\rightarrow$ Segmentación en clips.
2. Envío de (Clip + Prompt) al MLLM.
3. El modelo genera una respuesta textual que se parsea a una predicción binaria (0 = Normal, 1 = Anómalo).
4. Evaluación de precisión, recuperación y F1-score a nivel de video.

3. Contribuciones Clave

Formulación Orientada al Despliegue: Transforman la detección de anomalías de un problema de ranking a un problema de decisión binaria explícita, abordando directamente la necesidad de umbrales accionables en sistemas de vigilancia.
Análisis Controlado de la Interfaz de Prompting: Estudian cómo la especificidad (conciso vs. detallado) y la inclusión de contexto de clase moldean el juicio del modelo, demostrando que la instrucción lingüística es un factor crítico de control.
Sondeo de Contexto Temporal: Evalúan cómo la duración de la ventana temporal (1s vs 3s) afecta la sensibilidad y estabilidad del modelo en contextos de vigilancia ruidosos.

4. Resultados Principales

Sesgo Conservador Inicial: Sin instrucciones de clase específicas, los modelos mostraron una precisión cercana al 100% pero una recuperación inferior al 5% en muchos casos (ej. en SHT, algunos modelos tuvieron un F1-score de ~0.09). Esto indica que los modelos asumen "normalidad" por defecto para evitar falsos positivos.
Impacto del Contexto de Clase (+ class): La adición de instrucciones específicas sobre la clase de anomalía fue el factor más transformador.
- En ShanghaiTech, el F1-score máximo aumentó de 0.09 (base) a 0.64 (con instrucciones de clase).
- La recuperación (Recall) mejoró drásticamente (ej. de ~4% a ~53% en la mejor configuración), aunque la precisión bajó ligeramente, logrando un equilibrio mucho más útil.
Longitud del Prompt: Contrario a la intuición, los prompts "medios" (ni demasiado cortos ni excesivamente largos) a menudo superaron a los prompts "largos" y detallados. Los prompts demasiado largos introdujeron ruido semántico que distrajo al motor de razonamiento.
Duración del Clip:
- En ShanghaiTech (resolución más baja), aumentar la ventana temporal de 1s a 3s mejoró consistentemente el rendimiento, sugiriendo que el contexto temporal extra ayuda a distinguir movimientos normales de anómalos.
- En CHAD (alta resolución), el aumento de la ventana temporal no mejoró significativamente el rendimiento e incluso degradó el F1-score en algunos casos, indicando que en entornos de alta fidelidad, más contexto no resuelve la confusión semántica y puede introducir redundancia.
Comparativa de Datasets: El rendimiento en CHAD fue inferior al de ShanghaiTech (F1 pico de 0.48 vs 0.64), demostrando que una mayor fidelidad visual no garantiza una mejor comprensión de video en tareas de detección de anomalías complejas.

5. Significado y Conclusiones

El estudio concluye que, aunque los MLLM actuales son una base sólida para la comprensión general de video, aún no están listos para el despliegue operativo en vigilancia de mundo real sin ajustes significativos.

El Problema no es la "Visión", es la "Intención": La falla principal no es la incapacidad de ver el movimiento, sino la falta de confianza categórica para identificar anomalías sin una guía explícita.
Calibración de Decisiones: El éxito en VAD basada en MLLM dependerá menos de aumentar la fidelidad de los datos y más de mejorar la calibración de decisiones y la robustez del razonamiento bajo incertidumbre.
Recomendaciones Futuras: Se necesitan estrategias de prompting orientadas a la recuperación (recall), una mejor alineación de las definiciones de anomalía con el contexto específico y protocolos de evaluación que reflejen los requisitos de los límites de decisión en sistemas de vigilancia reales.

En resumen, los MLLM ofrecen un cambio de paradigma hacia la detección guiada por lenguaje, pero requieren una ingeniería de prompts cuidadosa (especialmente el contexto de clase) y una calibración de umbrales para ser útiles en escenarios de seguridad crítica.

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

🕵️‍♂️ La Gran Idea: ¿Puede un "Cerebro Digital" vigilar calles reales?

🚦 El Problema: El "Guardia" que tiene miedo de equivocarse

🛠️ La Solución: Darle un "Guion" más claro

⏱️ El Tiempo: ¿Más video es mejor?

💡 La Conclusión: ¿Están listos para la calle?

Resumen Técnico: ¿Están listos los MLLM para la vigilancia? Una verificación de la realidad en la detección de anomalías cero-shot en entornos reales

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado y Conclusiones

Más como este

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics