Language-guided Open-world Video Anomaly Detection under Weak Supervision

Este trabajo presenta LaGoVAD, un nuevo paradigma y modelo de detección de anomalías en video que se adapta dinámicamente a definiciones variables mediante instrucciones de lenguaje natural bajo supervisión débil, respaldado por el lanzamiento de PreVAD, el conjunto de datos más grande y diverso hasta la fecha para esta tarea.

Zihao Liu, Xiaoyu Wu, Jianqin Wu, Xuxu Wang, Linlin Yang

Publicado 2026-03-04
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que este paper es como la historia de un nuevo tipo de guardia de seguridad que puede entender las reglas del juego, en lugar de solo memorizar un manual rígido.

Aquí tienes la explicación de la investigación "LaGoVAD" y su base de datos "PreVAD", contada de forma sencilla:

1. El Problema: El guardia que se queda obsoleto

Imagina que tienes un guardia de seguridad (un programa de computadora) entrenado para vigilar un parque.

  • La vieja forma: El guardia aprendió que "correr" es normal y "romper una ventana" es malo. Pero si mañana el parque se convierte en una zona de construcción y el jefe le dice: "Oye, ahora correr es peligroso y está prohibido, pero romper una ventana para entrar a la obra es normal", el guardia viejo se confunde. Sigue pensando que correr es bueno y rompe una ventana porque cree que es malo.
  • El mundo real: En la vida real, lo que es "raro" o "peligroso" cambia todo el tiempo. En un hospital, no usar mascarilla es grave; en la calle, es normal. En una carretera, un peatón cruzando es un peligro; en un parque, es normal.

Los sistemas actuales fallan porque asumen que las reglas nunca cambian. Si las reglas cambian, el sistema se rompe.

2. La Solución: El guardia que "escucha" las instrucciones

Los autores proponen un nuevo sistema llamado LaGoVAD. En lugar de un guardia que solo mira, este es un guardia que escucha.

  • La analogía del "Comando de Voz": Imagina que puedes hablarle al guardia. Si le dices: "¡Ojo! Hoy, si alguien corre en la biblioteca, es una emergencia", el guardia entiende al instante y cambia su comportamiento. Si le dices: "Hoy, correr en la biblioteca es normal", él lo acepta.
  • Cómo funciona: El sistema no solo mira el video, sino que también lee una descripción en lenguaje natural (texto) que le da el usuario. Esa descripción actúa como la "definición de lo que es malo" para ese momento específico. Así, el sistema se adapta a cualquier situación sin tener que volver a aprender desde cero.

3. El Entrenamiento: Construyendo la "Biblioteca de Reglas"

Para entrenar a este nuevo guardia, necesitas un montón de ejemplos y, lo más importante, explicaciones claras de por qué algo es malo.

  • El problema anterior: Los datos antiguos eran como cajas de fotos sin etiquetas. Sabías que había una foto de un accidente, pero no sabías por qué era un accidente o cómo describirlo.
  • La nueva base de datos (PreVAD): Los autores crearon la base de datos más grande y variada hasta la fecha, llamada PreVAD.
    • La analogía: Imagina que en lugar de solo mostrarle al guardia fotos de accidentes, le das un libro gigante con 35,000 historias. Cada historia tiene una foto del accidente y una descripción detallada: "Un camión se volcó porque el conductor se durmió".
    • Usaron inteligencia artificial (como un asistente muy inteligente) para limpiar videos de internet, encontrar los accidentes y escribir esas descripciones automáticamente. Esto les dio al sistema una comprensión profunda del "por qué" y el "cómo", no solo del "qué".

4. Los Trucos para no "Memorizar" (Regularización)

Entrenar a un sistema tan flexible es difícil; podría intentar "hacer trampa" memorizando ejemplos en lugar de aprender la lógica. Para evitarlo, usaron dos trucos creativos:

  1. El "Montaje de Video Dinámico": Imagina que tomas un video de un accidente y lo mezclas con videos normales para crear una película larga y confusa. El sistema tiene que aprender a encontrar el momento exacto del accidente dentro de esa mezcla. Esto le enseña a no confiar en que "todo el video es malo", sino a buscar el detalle específico.
  2. El "Entrenamiento de Contraste": Es como un juego de "encuentra la diferencia". El sistema ve un video malo y un video bueno muy parecido, y se le obliga a encontrar la diferencia exacta. Esto afina su vista para no confundirse.

5. El Resultado: Un Campeón Universal

Cuando probaron a este nuevo sistema (LaGoVAD) en 7 escenarios diferentes (desde calles llenas de tráfico hasta películas de acción), ganó a todos los demás sistemas.

  • La prueba de fuego: Le dieron videos donde las reglas cambiaban (por ejemplo, un peatón en la carretera). Los sistemas viejos fallaron porque seguían pensando que los peatones eran normales. LaGoVAD, al leer la nueva instrucción ("¡Cuidado con los peatones!"), detectó el peligro perfectamente.

En resumen

Este paper presenta un sistema que deja de ser un robot tonto que sigue un manual fijo y se convierte en un guardia inteligente que entiende el contexto.

  • Antes: "Si veo fuego, es malo". (Si el fuego es una fogata de camping, el sistema se equivoca).
  • Ahora: "Si veo fuego y me dices que es una fogata de camping, es bueno. Si me dices que es un incendio en un bosque, es malo".

Gracias a su enorme base de datos de historias (PreVAD) y a su capacidad de escuchar instrucciones en lenguaje humano, este sistema es el primero capaz de navegar un mundo donde las reglas cambian constantemente.