Language-guided Open-world Video Anomaly Detection under Weak Supervision

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un guardia del corpo digitale (un'intelligenza artificiale) il cui lavoro è guardare video di telecamere di sicurezza e gridare "Allarme!" quando succede qualcosa di strano.

Fino a oggi, questi guardiani avevano un grosso problema: erano come cuccioli addestrati solo su un libro di regole rigido. Se il libro diceva "correre è normale", il cane non avrebbe mai abbaiato se qualcuno corresse, anche se era in una biblioteca dove correre è vietato. Se il libro diceva "correre è pericoloso", il cane avrebbe abbaiato in un parco giochi dove correre è divertente.

Questo è il problema del "mondo chiuso": l'IA impara una volta e non cambia mai idea, anche se le regole del mondo reale cambiano (come quando, durante un'epidemia, non indossare la mascherina diventa pericoloso, mentre prima era normale).

La Soluzione: "LaGoVAD" (Il Guardiano che Ascolta)

Gli autori di questo paper (pubblicato alla conferenza ICLR 2026) hanno creato un nuovo tipo di guardiano chiamato LaGoVAD. Ecco come funziona, usando delle metafore:

1. Il "Promemoria" Parlante (Definizione Guidata dal Linguaggio)

Invece di avere un libro di regole fisso, LaGoVAD ha un promemoria magico che può cambiare in tempo reale.

Come funziona: Tu, l'utente, puoi dirgli cosa cercare usando parole semplici.
L'analogia: Immagina di essere il direttore di un museo.
- Lunedì, gli dici: "Oggi, se qualcuno tocca le opere d'arte, è un problema".
- Martedì, gli dici: "Oggi, se qualcuno corre nei corridoi, è un problema".
- Mercoledì, gli dici: "Oggi, se qualcuno non ha la mascherina, è un problema".
  L'IA non deve essere riaddestrata da zero; basta cambiare il "promemoria" (il testo) e lei capisce subito cosa è strano in quel momento specifico.

2. Il "Cucina" che Inventi Pasticci (Sintesi Video Dinamica)

Per insegnare a questo guardiano a essere bravo, gli autori hanno dovuto dargli tantissimi esempi. Ma i video reali sono spesso brevi o noiosi.

Il trucco: Hanno creato un "cuoco robot" che prende pezzetti di video diversi e li unisce come se fosse un montaggio cinematografico.
L'analogia: Se vuoi insegnare a un bambino cosa significa "cadere", non puoi fargli guardare solo un video di 2 secondi di una caduta. Il cuoco robot prende un video di una persona che cammina, ne prende un altro di una persona che scivola, e li unisce in modo che sembri un video lungo e naturale. In questo modo, l'IA impara a distinguere la "normalità" (camminare) dall'"anomalía" (cadere) anche in contesti lunghi e complessi.

3. Il "Gioco delle 3 Carte" (Apprendimento Contrastivo)

Per evitare che l'IA si confonda o impari cose sbagliate, gli autori le fanno giocare a un gioco difficile.

Il trucco: L'IA deve guardare un video e dire: "Questo è un incidente" oppure "Questo è normale". Ma gli mostrano anche casi molto simili (es. una persona che corre per sport vs una persona che corre perché scappa da un ladro).
L'analogia: È come un insegnante che mostra a uno studente due foto quasi identiche: una di un gatto e una di una tigre. L'insegnante dice: "Trova la differenza!". Questo aiuta l'IA a diventare molto precisa e a non fare confusione quando le regole cambiano.

4. La "Biblioteca Universale" (Il Dataset PreVAD)

Per addestrare questo nuovo guardiano, gli autori hanno costruito la più grande biblioteca di video anomali mai creata (chiamata PreVAD).

Cosa c'è dentro: Oltre 35.000 video che coprono tutto: incidenti stradali, furti, animali che attaccano, disastri in fabbrica, ecc.
La novità: Ogni video non ha solo un'etichetta (es. "Furto"), ma una descrizione scritta (es. "Un uomo con una maschera ruba oggetti da un negozio"). Questo permette all'IA di capire il significato delle cose, non solo di riconoscere forme.

Perché è importante?

Prima, se volevi cambiare le regole di sicurezza (es. da "non correre" a "non correre solo se c'è fumo"), dovevi riaddestrare l'intero sistema da capo, cosa che richiedeva tempo e soldi.

Con LaGoVAD:

Flessibilità: Cambi le regole scrivendo una frase.
Adattabilità: Funziona in scenari mai visti prima (come un nuovo tipo di incidente).
Precisione: Capisce il contesto e non fa allarmi falsi.

In sintesi, hanno trasformato l'IA da un robot stupido che segue un manuale a un assistente intelligente che ascolta le tue istruzioni e si adatta al mondo che cambia intorno a lui.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Deriva Concettuale nel Mondo Reale

L'obiettivo principale della rilevazione di anomalie video (VAD) è identificare frame che deviano da pattern attesi. Tuttavia, i metodi esistenti operano prevalentemente in scenari "closed-set" o "open-set" statici, dove la definizione di "anomalia" è fissa e determinata durante l'addestramento.

Il paper identifica una limitazione critica negli scenari del mondo reale (open-world): la deriva concettuale (concept drift).

Definizione Dinamica: Ciò che è considerato normale o anomalo può cambiare in base al contesto, alle politiche temporali o alle esigenze specifiche dell'utente.
Esempio: Un pedone sulla strada è un comportamento normale in un dataset di crimini urbani, ma diventa un'anomalia critica in un dataset di sorveglianza autostradale.
Limitazione Attuale: I modelli tradizionali apprendono $P(Y|V)$ (probabilità di anomalia dato il video), che cambia quando la definizione di anomalia cambia ( $P_{train}(Y|V) \neq P_{test}(Y|V)$ ). I metodi attuali non permettono all'utente di ridefinire dinamicamente cosa cercare durante l'inferenza.

2. Metodologia: Il Paradigma LaGoVAD

Gli autori propongono un nuovo paradigma: Rilevazione di Anomalie Video Guidata dal Linguaggio in un Mondo Aperto.

2.1 Formulazione Teorica

Invece di fissare la definizione di anomalia, il modello la tratta come una variabile stocastica $Z$ .

Assunzione: L'etichetta di anomalia $Y$ è determinata esclusivamente dal video $V$ e dalla definizione $Z$ ( $Y = F(V, Z)$ ).
Obiettivo: Apprendere una mappatura $\Phi: (V, Z) \rightarrow Y$ .
Vantaggio: Se la definizione $Z$ cambia, il modello adatta la sua previsione senza subire deriva concettuale, poiché la distribuzione condizionata $P(Y|V, Z)$ rimane stabile.

2.2 Architettura del Modello (LaGoVAD)

Il modello è progettato per gestire lo spazio multimodale complesso e prevenire l'overfitting attraverso due strategie di regolarizzazione:

Input: Riceve un video $v$ e una definizione di anomalia $z$ (testo naturale, es. "non indossare la mascherina" o "incidente stradale").
Encoder: Utilizza un encoder visivo (CLIP + Transformer temporale) e un encoder testuale (CLIP Text Encoder).
Fusione: Un modulo di fusione basato su Transformer integra le caratteristiche visive e testuali.
Teste di Output:
- Detection Head: Produce un punteggio di anomalia binario per ogni frame.
- Classification Head: Produce probabilità per le diverse categorie di anomalie.

2.3 Strategie di Regolarizzazione

Per mitigare l'overfitting in uno spazio di dati multimodale denso, vengono introdotti due loss aggiuntivi:

Sintesi Video Dinamica ( $L_{dvs}$ ): Poiché le anomalie reali occupano spesso una piccola frazione del video, mentre i dataset web sono sbilanciati, questo modulo sintetizza dinamicamente video con durate variabili di eventi anomali e normali. Genera pseudo-label temporali per addestrare il modello a riconoscere anomalie in contesti di durata diversa.
Contrastive Learning con Hard Negative Mining ( $L_{neg}$ ): Migliora l'allineamento tra visione e linguaggio. Estrae feature aggregate per il foreground (anomalia) e il background (parte normale del video anomalo) per trattare le parti normali all'interno di un video anomalo come "hard negatives" rispetto alla descrizione testuale dell'anomalia.

3. Contributi Chiave: Il Dataset PreVAD

Per addestrare un modello che generalizza su definizioni variabili, è necessario un dataset vasto e semanticamente ricco. Gli autori hanno creato PreVAD (Pre-training Video Anomaly Dataset):

Scala: 35.279 video (209.5 ore), il più grande dataset di anomalie video esistente.
Diversità: Copre 7 categorie di primo livello (violenza, incidenti veicolari, incendi, rapine, ecc.) e 35 sottocategorie.
Annotazione Semantica: A differenza dei dataset precedenti che usano solo etichette di categoria, PreVAD include descrizioni testuali dettagliate per ogni anomalia (es. "un uomo con una felpa nera punta una pistola...").
Pipeline di Curazione: Utilizza un approccio ibrido AI-Umano con Large Multimodal Models (MLLM) per la pulizia, la verifica della coerenza e la generazione di descrizioni, riducendo i costi di annotazione manuale.

4. Risultati Sperimentali

Il modello è stato valutato su 7 dataset diversi (UCF-Crime, XD-Violence, MSAD, ecc.) utilizzando due protocolli zero-shot:

Protocollo 1 (Generalizzazione Cross-Domain):
- Valuta le prestazioni su scenari completamente diversi da quelli di addestramento.
- Risultato: LaGoVAD supera lo stato dell'arte (SOTA) su tutti i dataset. Su XD-Violence, mostra miglioramenti del 20% nella rilevazione e del 32% nella classificazione rispetto ai metodi precedenti.
- Supera metodi basati su LLM (come Qwen2-VL) e metodi open-vocabulary (OVVAD, VadCLIP).
Protocollo 2 (Robustezza alla Deriva Concettuale):
- Valuta la capacità del modello di adattarsi quando la definizione di anomalia cambia (es. considerando solo un sottoinsieme di categorie come anomalie).
- Risultato: LaGoVAD ottiene prestazioni superiori (es. 85.7 AUC su XD-Violence sotto definizione variabile) rispetto ai metodi basati su prompt engineering puri, dimostrando di gestire efficacemente il cambio di etichette.

5. Significato e Impatto

Cambio di Paradigma: Sposta il focus dalla semplice rilevazione di pattern noti alla capacità di guidare la rilevazione tramite linguaggio naturale, permettendo agli utenti di ridefinire le regole di sicurezza in tempo reale.
Soluzione alla Deriva Concettuale: Fornisce una soluzione teorica e pratica al problema della deriva concettuale, che era finora trascurato nella maggior parte delle ricerche VAD.
Risorsa per la Comunità: La pubblicazione di PreVAD, con le sue descrizioni semantiche ricche, colma il divario tra dataset di anomalie e modelli linguistici, facilitando lo sviluppo di sistemi VAD più adattabili e robusti per applicazioni reali (sorveglianza, sicurezza industriale, monitoraggio del traffico).

In sintesi, LaGoVAD rappresenta un passo fondamentale verso sistemi di sicurezza video intelligenti che non sono solo "addestrati" su dati statici, ma sono programmabili e adattabili alle mutevoli esigenze del mondo reale.