Language-guided Open-world Video Anomaly Detection under Weak Supervision

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este paper es como la historia de un nuevo tipo de guardia de seguridad que puede entender las reglas del juego, en lugar de solo memorizar un manual rígido.

Aquí tienes la explicación de la investigación "LaGoVAD" y su base de datos "PreVAD", contada de forma sencilla:

1. El Problema: El guardia que se queda obsoleto

Imagina que tienes un guardia de seguridad (un programa de computadora) entrenado para vigilar un parque.

La vieja forma: El guardia aprendió que "correr" es normal y "romper una ventana" es malo. Pero si mañana el parque se convierte en una zona de construcción y el jefe le dice: "Oye, ahora correr es peligroso y está prohibido, pero romper una ventana para entrar a la obra es normal", el guardia viejo se confunde. Sigue pensando que correr es bueno y rompe una ventana porque cree que es malo.
El mundo real: En la vida real, lo que es "raro" o "peligroso" cambia todo el tiempo. En un hospital, no usar mascarilla es grave; en la calle, es normal. En una carretera, un peatón cruzando es un peligro; en un parque, es normal.

Los sistemas actuales fallan porque asumen que las reglas nunca cambian. Si las reglas cambian, el sistema se rompe.

2. La Solución: El guardia que "escucha" las instrucciones

Los autores proponen un nuevo sistema llamado LaGoVAD. En lugar de un guardia que solo mira, este es un guardia que escucha.

La analogía del "Comando de Voz": Imagina que puedes hablarle al guardia. Si le dices: "¡Ojo! Hoy, si alguien corre en la biblioteca, es una emergencia", el guardia entiende al instante y cambia su comportamiento. Si le dices: "Hoy, correr en la biblioteca es normal", él lo acepta.
Cómo funciona: El sistema no solo mira el video, sino que también lee una descripción en lenguaje natural (texto) que le da el usuario. Esa descripción actúa como la "definición de lo que es malo" para ese momento específico. Así, el sistema se adapta a cualquier situación sin tener que volver a aprender desde cero.

3. El Entrenamiento: Construyendo la "Biblioteca de Reglas"

Para entrenar a este nuevo guardia, necesitas un montón de ejemplos y, lo más importante, explicaciones claras de por qué algo es malo.

El problema anterior: Los datos antiguos eran como cajas de fotos sin etiquetas. Sabías que había una foto de un accidente, pero no sabías por qué era un accidente o cómo describirlo.
La nueva base de datos (PreVAD): Los autores crearon la base de datos más grande y variada hasta la fecha, llamada PreVAD.
- La analogía: Imagina que en lugar de solo mostrarle al guardia fotos de accidentes, le das un libro gigante con 35,000 historias. Cada historia tiene una foto del accidente y una descripción detallada: "Un camión se volcó porque el conductor se durmió".
- Usaron inteligencia artificial (como un asistente muy inteligente) para limpiar videos de internet, encontrar los accidentes y escribir esas descripciones automáticamente. Esto les dio al sistema una comprensión profunda del "por qué" y el "cómo", no solo del "qué".

4. Los Trucos para no "Memorizar" (Regularización)

Entrenar a un sistema tan flexible es difícil; podría intentar "hacer trampa" memorizando ejemplos en lugar de aprender la lógica. Para evitarlo, usaron dos trucos creativos:

El "Montaje de Video Dinámico": Imagina que tomas un video de un accidente y lo mezclas con videos normales para crear una película larga y confusa. El sistema tiene que aprender a encontrar el momento exacto del accidente dentro de esa mezcla. Esto le enseña a no confiar en que "todo el video es malo", sino a buscar el detalle específico.
El "Entrenamiento de Contraste": Es como un juego de "encuentra la diferencia". El sistema ve un video malo y un video bueno muy parecido, y se le obliga a encontrar la diferencia exacta. Esto afina su vista para no confundirse.

5. El Resultado: Un Campeón Universal

Cuando probaron a este nuevo sistema (LaGoVAD) en 7 escenarios diferentes (desde calles llenas de tráfico hasta películas de acción), ganó a todos los demás sistemas.

La prueba de fuego: Le dieron videos donde las reglas cambiaban (por ejemplo, un peatón en la carretera). Los sistemas viejos fallaron porque seguían pensando que los peatones eran normales. LaGoVAD, al leer la nueva instrucción ("¡Cuidado con los peatones!"), detectó el peligro perfectamente.

En resumen

Este paper presenta un sistema que deja de ser un robot tonto que sigue un manual fijo y se convierte en un guardia inteligente que entiende el contexto.

Antes: "Si veo fuego, es malo". (Si el fuego es una fogata de camping, el sistema se equivoca).
Ahora: "Si veo fuego y me dices que es una fogata de camping, es bueno. Si me dices que es un incendio en un bosque, es malo".

Gracias a su enorme base de datos de historias (PreVAD) y a su capacidad de escuchar instrucciones en lenguaje humano, este sistema es el primero capaz de navegar un mundo donde las reglas cambian constantemente.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del paper "Language-Guided Open-World Video Anomaly Detection Under Weak Supervision" (Detección de Anomalías en Video en Mundo Abierto Guiada por Lenguaje bajo Supervisión Débil), presentado en ICLR 2026.

1. El Problema: La Deriva de Concepto en el Mundo Abierto

La detección de anomalías en video (VAD) tradicional opera bajo la premisa de que las definiciones de lo "normal" y lo "anómalo" son fijas durante el entrenamiento y la prueba. Sin embargo, en escenarios de mundo abierto, esta definición es dinámica y depende del contexto, las políticas o las necesidades del usuario.

Deriva de Concepto (Concept Drift): El problema central es que una misma secuencia de video puede considerarse normal en un contexto y anómala en otro.
- Ejemplo: Un peatón cruzando una carretera es un comportamiento anómalo en un dataset de tráfico (DoTA), pero es un comportamiento normal en un dataset de vigilancia criminal (UCF-Crime).
Limitaciones de los Métodos Actuales:
- Los métodos de conjunto cerrado solo detectan anomalías vistas durante el entrenamiento.
- Los métodos de conjunto abierto (open-set) o generalización de dominio pueden detectar nuevas categorías, pero asumen una definición de anomalía fija. No pueden adaptarse si el usuario cambia la definición de lo que busca (ej. "detectar falta de mascarilla" solo durante una pandemia).
- Los métodos basados en LLMs (Large Language Models) actuales a menudo carecen de precisión en la localización temporal o requieren un costo computacional excesivo.

2. Metodología: Paradigma LaGoVAD

Los autores proponen un nuevo paradigma llamado LaGoVAD (Language-guided Open-world Video Anomaly Detector). La idea fundamental es modelar la definición de la anomalía no como un valor fijo, sino como una variable estocástica $Z$ (definición) que condiciona la etiqueta de la anomalía $Y$ junto con el video $V$ .

A. Formulación Teórica

En lugar de aprender un mapeo $\Phi: V \to Y$ (que sufre deriva de concepto cuando $P(Y|V)$ cambia), proponen aprender $\Phi: (V, Z) \to Y$ .

Suposición: La etiqueta de anomalía de un video está determinada únicamente por el contenido del video y la definición proporcionada por el usuario.
Ventaja: Si la definición $Z$ se incluye en el modelo, la probabilidad condicional $P(Y|V, Z)$ permanece constante, eliminando teóricamente la deriva de concepto.

B. Arquitectura del Modelo

LaGoVAD utiliza una arquitectura multimodal que integra visión y lenguaje:

Codificadores: Utiliza un codificador de imágenes pre-entrenado (CLIP) y un codificador temporal basado en Transformer para el video, y el codificador de texto de CLIP para la definición anómala (texto).
Fusión: Un módulo de fusión basado en Transformer combina las características visuales y textuales.
Cabezas de Salida:
- Cabeza de Detección Binaria: Genera un puntaje de anomalía por frame.
- Cabeza de Clasificación: Genera probabilidades para múltiples categorías de anomalías.

C. Estrategias de Regularización (Para evitar sobreajuste)

Dado que el espacio de entrenamiento multimodal es vasto y los datos son escasos, el modelo sufre de sobreajuste. Para mitigarlo, se proponen dos estrategias clave:

Síntesis Dinámica de Video (Dynamic Video Synthesis):
- Problema: Los videos reales de anomalías suelen ser largos con eventos cortos, pero los datasets web a menudo tienen videos editados con altas proporciones de anomalías.
- Solución: El módulo sintetiza videos dinámicamente concatenando segmentos de videos semánticamente similares (usando vecinos más cercanos). Esto genera videos con duraciones variables y proporciones de anomalías ajustadas, creando "pseudo-etiquetas" temporales precisas para entrenar el modelo a entender el contexto normal vs. anómalo.
Aprendizaje Contrastivo con Minería de Negativos Duros (Hard Negative Mining):
- Problema: La frontera entre "normal" y "anómalo" es ambigua en los frames.
- Solución: Se agregan características visuales ponderadas por los puntajes de anomalía para crear representaciones de "fondo" (partes normales de un video anómalo) y "primer plano". Se aplica una pérdida contrastiva para alinear estas representaciones con las descripciones de texto, mejorando la discriminación fina entre lo que es anómalo según la definición y lo que no.

3. Contribuciones Clave

Nuevo Paradigma de VAD: Reformulan la detección de anomalías para manejar explícitamente la deriva de concepto mediante la modelación conjunta de video y definición textual.
Modelo LaGoVAD: Un detector que permite a los usuarios definir anomalías mediante lenguaje natural en tiempo de inferencia, adaptándose dinámicamente a nuevos requisitos sin reentrenamiento.
Dataset PreVAD: La creación del dataset PreVAD (Pre-training Video Anomaly Dataset), el más grande y diverso hasta la fecha:
- Escala: 35,279 videos (209.5 horas), con 11,979 videos anómalos.
- Diversidad: Cubre 7 categorías de primer nivel (Violencia, Accidentes de Vehículos, Robos, etc.) y 35 subcategorías.
- Anotación Rica: A diferencia de datasets anteriores que solo tienen etiquetas de categoría, PreVAD incluye descripciones textuales detalladas de las anomalías, generadas mediante un pipeline híbrido humano-IA, lo que es crucial para el entrenamiento guiado por lenguaje.
Evaluación Exhaustiva: Validación mediante protocolos de zero-shot en 7 datasets diversos y pruebas específicas de robustez ante deriva de concepto.

4. Resultados Experimentales

El modelo fue evaluado bajo dos protocolos de zero-shot (sin datos de entrenamiento específicos del dominio de prueba):

Protocolo 1 (Evaluación General): Prueba en 7 datasets distintos (UCF-Crime, XD-Violence, MSAD, etc.).
- LaGoVAD superó a los métodos State-of-the-Art (SOTA) en todos los conjuntos de datos.
- Logró mejoras significativas: +20% en detección y +32% en clasificación en el dataset XD-Violence comparado con métodos anteriores.
- Superó a métodos de generalización de dominio y detección de vocabulario abierto.
Protocolo 2 (Evaluación de Deriva de Concepto): Se probó la capacidad del modelo para cambiar la definición de anomalía en el mismo dataset (ej. considerar "peleas" como anómalo en una prueba y "explosiones" en otra).
- LaGoVAD demostró una robustez superior frente a la deriva de concepto en comparación con métodos basados en LLMs (como Qwen2-VL) y otros métodos multimodales, manteniendo alta precisión en la localización temporal.
Ablaciones: La eliminación de la síntesis dinámica de video o la pérdida contrastiva resultó en una degradación notable del rendimiento, confirmando la necesidad de ambas estrategias para el entrenamiento efectivo.

5. Significado e Impacto

Este trabajo representa un avance fundamental en la visión por computadora para la seguridad y vigilancia:

Adaptabilidad Real: Permite que los sistemas de VAD se adapten a cambios en las políticas o entornos sin necesidad de recopilar nuevos datos etiquetados y reentrenar el modelo. Un usuario puede simplemente escribir "detectar personas sin casco" o "detectar vehículos estacionados en zona prohibida" y el modelo se ajustará.
Escalabilidad: El pipeline de curación de datos utilizado para crear PreVAD demuestra cómo se pueden construir datasets masivos y de alta calidad utilizando modelos fundacionales, reduciendo la dependencia de la anotación manual costosa.
Eficiencia: A diferencia de los enfoques que requieren ejecutar grandes LLMs en cada frame para la detección, LaGoVAD ofrece un equilibrio entre la capacidad de comprensión semántica y la eficiencia computacional, siendo viable para aplicaciones en tiempo real.

En resumen, LaGoVAD cierra la brecha entre la detección de anomalías rígida y las necesidades dinámicas del mundo real, estableciendo un nuevo estándar para la detección de anomalías en entornos abiertos y cambiantes.