Wasserstein normalized autoencoder for anomaly detection

La visione d'insieme: Trovare un ago in un pagliaio (senza sapere che aspetto abbia l'ago)

Immaginate di essere una guardia giurata in un enorme aeroporto. Ogni giorno, migliaia di persone passano attraverso il vostro controllo. Sapete esattamente che aspetto ha un viaggiatore "normale": porta uno zaino, indossa un cappotto, forse ha un caffè in mano. Queste sono le vostre particelle del Modello Standard (lo sfondo).

Ma occasionalmente, qualcuno passa portando qualcosa di strano — magari una scatola luminosa o una tuta fatta di tessuto invisibile. Questa è la Nuova Fisica (il segnale). Il problema è che non sapete esattamente che aspetto abbia questa "scatola luminosa". Potrebbe essere qualsiasi cosa. Se cercate di insegnare al vostro sistema di sicurezza a individuare un tipo specifico di scatola luminosa, potreste mancarne un'altra versione diversa.

Quindi, decidete di insegnare al vostro sistema solo come appare il "normale". Se qualcosa non si adatta al modello "normale", lo segnalate come anomalia. Questo è chiamato Rilevamento di Anomalie (Anomaly Detection).

Il problema: Il robot "troppo utile"

Il documento discute un tipo specifico di IA chiamato Autoencoder. Pensate all'Autoencoder come a un robot che cerca di memorizzare la foto di un viaggiatore normale, comprimerla in un piccolo appunto e poi ridisegnare la foto partendo da quell'appunto.

L'obiettivo: Se il robot vede un viaggiatore normale, dovrebbe ridisegnarlo perfettamente (errore basso). Se vede un alieno strano, dovrebbe faticare a ridisegnarlo (errore alto), e voi segnalate l'alieno.
Il difetto: A volte, il robot è troppo bravo. Se l'alieno è in realtà più semplice dei viaggiatori normali (magari l'alieno è solo una banale macchia grigia, mentre i viaggiatori normali hanno schemi complessi), il robot potrebbe accidentalmente imparare a ridisegnare perfettamente anche l'alieno.
Il risultato: Il robot pensa che l'alieno sia normale perché riesce a ridisegnarlo facilmente. Il sistema di sicurezza fallisce. Nel documento, questo viene chiamato "Ricostruzione di Outlier" (Outlier Reconstruction). È come un falsario che è così bravo a copiare i dipinti da riuscire a falsificare un capolavoro in modo tale che il museo lo consideri autentico.

Il primo tentativo: Il robot "Normalizzato" (NAE)

Per risolvere questo problema, gli scienziati hanno provato un robot più intelligente chiamato Autoencoder Normalizzato (NAE).

Inve Instead di cercare solo di ridisegnare l'immagine, questo robot cerca di apprendere la probabilità di ciò che appare un viaggiatore normale. Utilizza un trucco matematico che coinvolge una "Catena di Markov" (pensatela come un cammino casuale) per generare esempi "negativi" finti. Si chiede: "Se inventassi un viaggiatore casuale, sembrerebbe simile a quelli reali che ho visto?"

L'obiettivo: Cerca di assicurarsi che tutto ciò che appare "strano" (bassa probabilità) riceva un punteggio di errore elevato.
Il nuovo difetto: Questo robot è instabile. A volte si confonde e inizia a "divergere". Potrebbe decidere che il modo migliore per vincere la partita è far sì che tutto sia terribile da ridisegnare, oppure potrebbe collassare in uno stato in cui ridisegna tutto perfettamente, inclusi gli alieni strani, solo per minimizzare il proprio punteggio matematico. È come uno studente che, invece di studiare, decide di imbrogliare memorizzando la chiave delle risposte in un modo che rompe il test.

La soluzione: Il robot "Wasserstein" (WNAE)

Questo è il contributo principale del documento. Gli scienziati hanno introdotto l'Autoencoder Normalizzato Wasserstein (WNAE).

Per capire questo, immaginate di avere due cumuli di sabbia:

Cumulo A: Viaggiatori reali (i vostri dati di addestramento).
Cumulo B: L'ipotesi attuale del robot su come appaiono i viaggiatori (la sua distribuzione appresa).

Nei metodi precedenti, il robot cercava solo di far corrispondere le forme dei cumuli. Ma a volte, il robot cercava di imbrogliare creando un cumulo che sembrava simile ma che era in realtà nel posto sbagliato.

La distanza di Wasserstein è un modo per misurare il "costo" per spostare la sabbia dal Cumulo B al Cumolo A. Immaginate di dover trasportare granelli di sabbia da un cumulo all'altro. La distanza di Wasserstein chiede: "Qual è la quantità minima di sforzo (distanza x peso) richiesto per trasformare il mio cumulo finto nel cumulo reale?"

Come funziona il WNAE:

Non cerca solo di ridisegnare l'immagine; cerca di minimizzare lo "sforzo" necessario per far sì che i suoi dati finti assomiglino esattamente ai dati reali.
Se il robot prova a imbrogliare e a ridisegnare perfettamente un alieno strano, lo "sforzo" (distanza di Wasserstein) per spostare i dati di quell'alieno verso il cumulo "normale" diventa enorme.
Il robot è costretto a smettere di imbrogliare. Impara che l'unico modo per minimizzare lo sforzo è apprendere rigorosamente la forma del cumulo "normale" e lasciare stare le cose "strane".

Perché questo è importante per il documento

Gli scienziati hanno testato questo metodo su CMS, un enorme rilevatore di particelle presso il CERN (il Large Hadron Collider). Cercavano i Jet Semivisibili (SVJ).

Lo scenario: Immaginate un jet di particelle (come uno spruzzo da un tubo dell'acqua) che è metà visibile (particelle standard) e metà invisibile (Materia Oscura).
La sfida: Questi jet somigliano molto ai jet normali derivanti dai quark top (un comune sfondo). I robot standard non riuscivano a distinguerli perché continuavano a "ricostruire" i jet strani come se fossero normali.
Il risultato: Il WNAE è stato in grado di apprendere perfettamente la distribuzione dei jet "normali" senza aver mai visto un singolo jet "strano" durante l'addestramento. È riuscito a segnalare i jet di materia oscura invisibile come anomalie.

Conclusione

Il documento afferma che, utilizzando la distanza di Wasserstein come insegnante, hanno costruito un robot che:

Non imbroglia: Non può semplicemente imparare a ridisegnare le cose strane perfettamente per abbassare il proprio punteggio.
È stabile: Non va in crash o si confonde come la versione precedente "Normalizzata".
È agnostico rispetto al segnale: Non ha bisogno di sapere che aspetto abbia la cosa "strana"; sa solo come appare il "normale", e tutto ciò che non si adatta a questo stampo viene segnalato.

In breve, hanno riparato un sistema di sicurezza rotto fornendogli un modo migliore per misurare quanto una persona sospetta sia "lontana" dalla folla, assicurandosi che anche un intruso astutamente travestito venga catturato.

Sintesi Tecnica: Autoencoder Normalizzato di Wasserstein per il Rilevamento di Anomalie

Definizione del Problema
L'apprendimento automatico non supervisionato, in particolare gli Autoencoder (AE), è uno strumento potente per identificare nuova fisica al Large Hadron Collider (LHC), separando gli eventi di fondo del Modello Standard (SM) da potenziali segnali oltre il Modello Standard (BSM) senza fare affidamento su specifiche ipotesi di segnale. Tuttavia, gli AE standard soffrono di un modo di guasto critico noto come "ricostruzione di outlier" (outlier reconstruction). In questo scenario, la rete impara a ricostruire i punti dati anomali (outlier) con un errore basso, spesso perché questi outlier sono meno complessi dei dati di addestramento (un fenomeno denominato "bias di complessità") o semplicemente perché la rete è libera di minimizzare l'errore di ricostruzione in regioni dello spazio delle fasi esterne alla distribuzione di addestramento. Ciò risulta in una perdita di potere discriminante, dove l'errore di ricostruzione non riesce a distinguere tra fondo e segnale.

I precedenti tentativi di affrontare questo problema utilizzando gli Autoencoder Normalizzati (NAE), che inquadrano l'errore di ricostruzione dell'AE come una funzione di energia all'interno di una distribuzione di Boltzmann, hanno inoltre affrontato diverse sfide. L'addestramento degli NAE presenta spesso instabilità numerica, inclusa la divergenza della funzione di perdita e il "collasso dei modi" (mode collapse), in cui la rete apprende una distribuzione di probabilità che si sovrappone significativamente al segnale, portando nuovamente a una scarsa performance nel rilevamento di anomalie. Inoltre, l'addestramento degli NAE esistenti manca di una condizione di arresto robusta e agnostica rispetto al segnale per prevenire l'overtraining e la ricostruzione di outlier.

Metodologia
Gli autori introducono l'Autoencoder Normalizzato di Wasserstein (WNAE), un nuovo modello probabilistico progettato per superare i limiti sia degli AE standard che degli NAE. La metodologia procede come segue:

Framework Probabilistico: Come l'NAE, il WNAE tratta l'errore di ricostruzione dell'AE $l_\theta(x)$ come una funzione di energia $E_\theta(x)$ . Il modello definisce una distribuzione di probabilità normalizzata $p_\theta(x)$ utilizzando la distribuzione di Boltzmann: $p_\theta(x) = \frac{1}{\Omega_\theta} \exp(-E_\theta(x))$ .
Markov Chain Monte Carlo (MCMC): Per apprendere la distribuzione $p_\theta$ , il modello impiega un algoritmo di Langevin Monte Carlo per campionare esempi "negativi" da $p_\theta$ . Questi campioni vengono generati iterativamente utilizzando il gradiente della funzione di energia rispetto alle caratteristiche di input.
L'Obiettivo della Distanza di Wasserstein: L'innovazione principale è l'uso della distanza 1-Wasserstein (distanza di Earth Mover) come obiettivo diretto di addestramento. Invece di minimizzare la log-verosimiglianza negativa (che comporta una funzione di partizione intrattabile e porta all'instabilità), il WNAE minimizza la distanza di Wasserstein $W(p_{data}, p_\theta)$ $W (p_{d a t a}, p_{θ})$ tra la distribuzione dei dati di addestramento $p_{data}$ $p_{d a t a}$ e la distribuzione del modello $p_\theta$ $p_{θ}$ .
- La funzione di perdita è definita come la distanza di Wasserstein tra i campioni positivi (da $p_{data}$ ) e i campioni negativi (da $p_\theta$ ).
- Questo approccio sfrutta la dualità di Kantorovich-Rubinstein, permettendo una funzione di perdita stabile e differenziabile che non soffre dei problemi di svanimento del gradiente o di collasso dei modi comuni in altri modelli generativi.
Dinamiche di Addestramento: L'addestramento prevede due fasi: un aggiustamento grossolano in cui la distanza di Wasserstein diminuisce bruscamente mentre il modello si adatta ai dati fisici, seguito da una fase di fine-tuning. Viene impiegato uno scheduler del tasso di apprendimento per garantire la stabilità. Fondamentalmente, la distanza di Wasserstein funge da condizione di arresto agnostica rispetto al segnale per prevenire l'overtraining e la ricostruzione di outlier: l'addestramento viene interrotto quando la distanza inizia ad aumentare, indicando l'inizio di un collasso dei modi o della ricostruzione di outlier.

Caso di Studio e Dati
L'algoritmo è applicato alla ricerca di Jet Semivisibili (SVJ), una firma di modelli di "hidden valley", in cui particelle del settore oscuro producono jet contenenti sia particelle visibili del Modello Standard che stati di materia oscura invisibili.

Fondo: Produzione di top-antitop ( $t\bar{t}$ ) simulata con jet aggiuntivi.
Segnale: Eventi SVJ generati tramite un mediatore scalare bifundamentale, con frazioni invisibili variabili ( $r_{inv}$ ) e masse del mediatore ( $m_\Phi$ ).
Caratteristiche: L'input consiste in 8 variabili di sottostruttura del jet (ad esempio, assi maggiore/minore, polinomi di flusso di energia, $N$ -subjettiness, massa softdrop) derivate dalla ricostruzione del particle-flow.

Risultati Chiave

Fallimento dell'AE Standard: Quando addestrato sul fondo $t\bar{t}$ , un AE standard fallisce nel discriminare gli SVJ dal fondo, fornendo un punteggio AUC (Area Under the Curve) vicino a 0.5 (indovinare casualmente) a causa della ricostruzione di outlier.
Instabilità dell'NAE: Sebbene l'NAE migliori inizialmente la discriminazione, soffre di divergenza della perdita e collasso dei modi. L'AUC degrada nel tempo man mano che l'energia negativa diverge, e il modello non riesce a distinguere il segnale dal fondo senza una condizione di arresto dipendente dal segnale.
Performance del WNAE: Il WNAE dimostra un addestramento stabile e convergente.
- Raggiunge una forte performance di classificazione attraverso un'ampia gamma di ipotesi di segnale SVJ, con punteggi AUC significativamente più alti rispetto all'AE standard e comparabili o superiori all'NAE nel suo punto ottimale.
- La distanza di Wasserstein correla efficacemente con il punteggio AUC, fornendo una condizione di arresto affidabile che impedisce al modello di apprendere la distribuzione del segnale.
- Il WNAE mitiga il bias di complessità. A differenza degli AE standard, che faticano quando il segnale è meno complesso del fondo, il WNAE identifica con successo i jet del quark top come anomalie anche quando addestrato su segnali SVJ, dimostrando la sua capacità di apprendere la vera densità di probabilità dei dati di addestramento piuttosto che limitarsi a minimizzare l'errore di ricostruzione.

Significatività e Rivendicazioni
L'articolo sostiene che il WNAE affronti direttamente il modo di guasto fondamentale della ricostruzione di outlier negli autoencoder basati sul rilevamento di anomalie. Minimizzando la distanza di Wasserstein tra la distribuzione dei dati di addestramento e la distribuzione appresa dal modello, l'algoritmo assicura che le regioni dello spazio delle fasi distinte dai dati di addestramento siano assegnate errori di ricostruzione elevati.

Gli autori sottolineano che il WNAE rimane completamente non supervisionato e agnostico rispetto al segnale. Non richiede la conoscenza dell'ipotesi di segnale durante l'addestramento, né si affida a una regolarizzazione ad hoc per stabilizzare la perdita dell'NAE. Il metodo fornisce uno strumento robusto, stabile ed efficace per il rilevamento di anomalie, capace di identificare firme di nuova fisica come i jet semivisibili contro complessi fondi del Modello Standard. L'articolo conclude che, sebbene il WNAE sia stabile per il compito studiato, può ancora essere soggetto a limitazioni generiche dei modelli di rilevamento di anomalie, come la sovrapposizione delle distribuzioni di segnale e di fondo o la contaminazione dei dati di addestramento con anomalie, sebbene offra una via per il raffinamento auto-supervisionato in tali casi.