Anomaly detection using surprisals

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa del paper, pensata per chiunque, anche senza conoscenze statistiche.

🕵️‍♂️ Il Detective delle Sorprese: Come trovare l'insolito senza essere perfetti

Immagina di essere un detective che deve trovare un ladro in una folla di 10.000 persone. Il problema è che non hai una foto precisa del ladro (il modello statistico "perfetto" non esiste) e la folla è caotica. I metodi tradizionali spesso dicono: "Se il ladro non assomiglia esattamente alla nostra foto, non lo troviamo" oppure "Cerchiamo solo chi è vestito in modo strano agli estremi della folla".

Rob Hyndman e David Frazier propongono un approccio diverso, basato su una parola magica: Surprisal (in italiano potremmo chiamarlo "Livello di Sorpresa").

1. Cos'è il "Surprisal"? (La misura della sorpresa)

Immagina di avere una mappa del mondo.

Se sei in una città affollata (dove ci sono molte persone), non sei sorpreso. Il tuo "Livello di Sorpresa" è basso.
Se ti trovi nel mezzo del deserto, sei molto sorpreso. Il tuo "Livello di Sorpresa" è alto.

In statistica, invece di contare le persone, usiamo la densità di probabilità.

Un evento comune (come piovere a Londra) ha un'alta densità -> Bassa Sorpresa.
Un evento raro (come un vulcano che erutta in un parco giochi) ha una bassa densità -> Alta Sorpresa.

Il paper dice: "Non preoccupiamoci di capire esattamente perché qualcosa è strano. Misuriamo solo quanto è 'sorprendente'."

2. Il Trucco del "Cambio di Abito" (Il problema dei modelli sbagliati)

Il problema con i vecchi metodi è che se usi la mappa sbagliata (un modello statistico imperfetto), perdi il ladro.

Esempio: Se pensi che il mondo sia piatto (modello sbagliato) e cerchi un ladro che vive su una montagna, non lo troverai mai.

Gli autori dicono: "Non importa se la tua mappa è sbagliata, purché tu sappia chi è 'più strano' di chi."
È come avere una lista di ospiti a una festa. Anche se non sai esattamente quanti anni hanno o quanto pesano, se sai che il signore con il cappello da clown è più "fuori luogo" della signora con il vestito rosso, e la signora con il vestito rosso è più "fuori luogo" del cameriere, allora hai la classifica corretta.

Il loro metodo si basa su questa idea:

Calcoliamo il "Livello di Sorpresa" per ogni osservazione usando un modello (anche se non perfetto).
Invece di guardare il valore assoluto, chiediamo: "Quante altre cose sono state almeno tanto sorprendenti quanto questa?"
Se la risposta è "pochissime", allora è un'anomalia.

3. I Due Metodi per Trovare il Ladro

Il paper propone due modi per contare queste "sorprese":

A. Il Metodo "Conto a Mani" (Empirico)
Immagina di mettere tutti i livelli di sorpresa in una fila, dal meno sorprendente al più sorprendente.

Se il tuo evento è il 99° su 100, è molto strano.
Se è il 50°, è normale.
Questo metodo funziona bene se la tua "lista" mantiene l'ordine giusto degli eventi più strani, anche se i numeri esatti sono un po' storti. È come dire: "Non mi serve sapere la temperatura esatta, basta che so che il ghiaccio è più freddo dell'acqua."

B. Il Metodo "Orologio della Fine" (Teoria dei Valori Estremi - GPD)
Immagina di guardare solo le persone più strane della folla (quelle con la sorpresa più alta). Gli autori dicono che, anche se il mondo è complesso, il comportamento delle cose più strane segue delle regole matematiche precise (come un'onda che si infrange sulla riva).
Usano una formula speciale (distribuzione Generalized Pareto) per prevedere quanto è raro un evento, basandosi solo sui casi più estremi che hai già visto.

Il consiglio d'oro: È meglio sbagliare pensando che le cose siano più strane di quanto siano realmente, piuttosto che sottovalutarle. Se pensi che un evento sia un "uragano" quando è solo un "temporale", non ti spaventerai troppo. Se pensi che sia un "temporale" quando è un "uragano", sarai colto di sorpresa.

4. Gli Esempi Reali: Dalla Storia al Cricket

Per dimostrare che funziona, hanno usato due casi reali:

La Morte in Francia (1816-1999): Hanno analizzato i tassi di mortalità. Il loro sistema ha "sentito" le sorprese e ha individuato automaticamente gli anni delle grandi epidemie (come il colera) e delle guerre (Prima e Seconda Guerra Mondiale). Anche se il modello non era perfetto, ha visto che in quegli anni la "sorpresa" era altissima.
Il Cricket (Chi non viene mai eliminato?): Nel cricket, i battitori possono finire la partita senza essere eliminati ("not out"). Di solito, i battitori meno bravi vengono eliminati spesso. Ma c'era un giocatore (Jimmy Anderson) che, pur non essendo un grande battitore, aveva un numero altissimo di partite "non eliminato".
- Perché? Perché era un "battitore di coda" (batteva per ultimo). Spesso la partita finiva prima che lui venisse eliminato.
- Il modello ha visto che questo comportamento era "sorprendente" rispetto alla media, anche se non era un errore di gioco, ma una strategia di squadra. Ha trovato un'anomalia che sembrava normale a prima vista, ma che era strana nel contesto matematico.

5. Perché è importante? (La Conclusione)

Fino ad ora, per trovare le anomalie (frodi, malattie, errori di sistema), dovevamo essere perfetti nel capire come funziona il mondo. Se il nostro modello era sbagliato, fallivamo.

Questo paper ci dice: "Non serve essere perfetti. Serve solo essere coerenti."
Puoi usare una mappa approssimativa, purché riesca a dirti chi è più "strano" di chi. Una volta che hai misurato quanto è "strano" (surprisal), puoi usare metodi semplici per decidere se è un'anomalia da segnalare.

In sintesi:
Non cercare di capire tutto il mondo. Misura solo quanto qualcosa ti fa dire: "Ehi, questo è strano!" e poi controlla quanto spesso succede quella sensazione. Se è rarissimo, hai trovato un'anomalia. E il bello è che funziona anche se la tua intuizione iniziale non era perfetta.

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata del documento "Anomaly detection using surprisals" di Rob J Hyndman e David T Frazier, presentata in italiano.

1. Il Problema

I metodi tradizionali di rilevamento delle anomalie (outlier detection) presentano spesso due limiti fondamentali:

Dipendenza da regole ad hoc o assunzioni distributive forti: Molti metodi richiedono che i dati seguano distribuzioni specifiche (es. Normale) o utilizzano regole empiriche prive di fondamento teorico solido.
Focus sui soli eventi di coda: La maggior parte delle tecniche si concentra sugli eventi estremi nelle code della distribuzione, trascurando le anomalie "inlier". Queste ultime sono osservazioni che si verificano in regioni a bassa densità situati tra le mode di una distribuzione multimodale, ma che non sono necessariamente agli estremi della distribuzione.

L'obiettivo del paper è proporre un quadro unificato che definisca un'anomalia come un'osservazione con una probabilità insolitamente bassa sotto un modello (possibilmente errato), permettendo di rilevare anomalie ovunque nella distribuzione, non solo nelle code.

2. Metodologia: Il Framework basato sulla "Surprisal"

Il cuore della proposta è l'uso della surprisal (o "sorpresa"), definita come il logaritmo negativo della densità generalizzata di probabilità.

Definizione di Surprisal

Per un'osservazione $y_i$ con densità generalizzata $f(y_i)$ , la surprisal è:
$s_i = -\log f(y_i)$

Un valore alto di $s_i$ indica una bassa densità (osservazione "sorprendente" e potenzialmente anomala).
Un valore basso indica un'osservazione tipica.

Questo approccio trasforma il problema di rilevamento in spazi multivariati o complessi in un problema univariato: stimare la coda superiore della distribuzione delle surprisal.

Assegnazione del Punteggio di Anomalia

L'anomalia non è definita direttamente dal valore di $s_i$ , ma dalla probabilità di osservare una surprisal almeno grande quanto quella osservata. Si definisce il punteggio di anomalia $p_i$ come:
$p_i = \Pr(S \ge s_i) = 1 - G(s_i^-)$
dove $G(s)$ è la funzione di distribuzione cumulativa (CDF) delle surprisal. Un'osservazione è considerata un'anomalia se $p_i < \alpha$ (dove $\alpha$ è il tasso di falsi positivi desiderato).

Tre Approcci di Stima

Poiché la vera distribuzione $F$ è spesso sconosciuta, il paper propone tre metodi per stimare le probabilità di coda $p_i$ :

Modello Assunto: Calcolo diretto usando la distribuzione $F$ assunta (soggetto a forti assunzioni).
Stima Empirica: Utilizzo della funzione di distribuzione empirica delle surprisal osservate. $p_i$ è la proporzione di surprisal osservate $\ge s_i$ .
Teoria dei Valori Estremi (GPD): Adattamento di una Distribuzione Pareto Generalizzata (GPD) alle $k$ più grandi surprisal per stimare le probabilità di coda.

3. Contributi Teorici Chiave

Il paper fornisce garanzie teoriche rigorose per gli approcci empirico e GPD, dimostrando la robustezza del metodo anche in caso di mala specifica del modello (model misspecification).

Stima Empirica e Ordine delle Code

Per l'approccio empirico, viene introdotta l'Assunzione 2.1: la vera surprisal $S$ e quella stimata $\hat{S}$ devono essere legate da una trasformazione strettamente crescente sulla coda superiore ( $S = h(\hat{S})$ per $S \ge s^*$ ).

Risultato (Lemma 2.1): Se l'assunzione è soddisfatta, l'estimatore empirico fornisce garanzie di confidenza finite (tramite la disuguaglianza di Dvoretzky–Kiefer–Wolfowitz) sulla coda.
Implicazione: Non è necessario che la forma della coda sia corretta, basta che l'ordinamento delle osservazioni nella coda sia preservato. Se il modello errato posiziona le regioni a bassa densità negli stessi punti della distribuzione vera (anche se con scale diverse), il metodo funziona.

Teoria dei Valori Estremi per le Surprisal

Per l'approccio GPD, il paper estende il teorema di Fisher-Tippett-Gnedenko alle distribuzioni delle surprisal. Vengono identificate tre condizioni sulle code della surprisal $S = -\log f(Y)$ :

Sub-Gaussiana: (es. densità limitata superiormente e inferiormente). La massima surprisal converge a una distribuzione di Weibull inversa.
Sub-Espontenziale: (es. distribuzione Gaussiana). Converge alla distribuzione di Gumbel.
Polinomiale: (es. distribuzione Student-t). Converge alla distribuzione di Fréchet.

Risultato (Teorema 3.1): In tutti e tre i casi, la coda della distribuzione delle surprisal può essere approssimata da una GPD.

Robustezza alla Mala Specificazione: Se si assume un modello a coda leggera (es. Gaussiana) ma i dati hanno code pesanti, l'approccio GPD può fallire (convergenza lenta). Tuttavia, se si assume un modello a code pesanti (es. Student-t) per dati a code leggere, l'approccio rimane robusto e consistente. Questo suggerisce che è più sicuro "sovrastimare" la pesantezza delle code.

Applicabilità Condizionale

Il framework è estendibile a distribuzioni condizionali (es. regressione). Se le covariate sono fisse, la teoria rimane valida. Se le covariate variano, la surprisal cattura anomalie sia nelle risposte che nelle covariate, o in combinazioni atipiche di entrambe.

4. Risultati Sperimentali e Applicazioni

Simulazioni

Univariato: Dati generati da una Normale ma analizzati con una $t(4)$ (e viceversa). Gli stimatori empirici e GPD hanno fornito stime accurate delle probabilità di coda, ignorando la mala specifica della distribuzione iniziale.
Multivariato (Gamma Bivariato): Confronto tra modelli corretti (Gamma) e errati (Normale). L'approccio GPD con una distribuzione di riferimento a code pesanti (Student-t) ha funzionato meglio di quello con distribuzione Normale, confermando che è preferibile assumere code più pesanti per evitare sottostime.

Applicazioni Reali

Tassi di Mortalità Francesi (1816-1999):
- Dati disaggregati per età e sesso.
- Il metodo ha identificato anomalie temporali che corrispondono a eventi storici noti: epidemie di colera (1832, 1849), guerre (1870, 1914-1918, 1940) e l'influenza spagnola (1918).
- Ha rilevato anomalie in gruppi di età specifici durante questi eventi, dimostrando la capacità di gestire dati complessi e multimodali.
Cricket Test (Not Outs):
- Analisi della proporzione di "not out" (non eliminati) dei battitori.
- È stato identificato Jimmy Anderson come un'anomalia: pur non avendo una percentuale di "not out" estrema in senso assoluto, la sua combinazione di alto numero di inning e alta percentuale di "not out" (dovuta alla sua abilità difensiva e al fatto che batteva per ultimo) era statisticamente sorprendente rispetto al modello Binomiale stimato.
- Questo dimostra come il metodo possa rilevare anomalie contestuali che i metodi basati su distanze o percentuali semplici mancherebbero.

5. Significato e Conclusioni

Il framework basato sulla surprisal offre un approccio unificato, interpretabile e teoricamente fondato per il rilevamento delle anomalie.

Robustezza: Il metodo funziona anche quando il modello di densità assunto è significativamente errato, purché l'ordinamento delle regioni a bassa densità sia preservato.
Generalità: Si applica a dati univariati, multivariati, discreti, continui o misti, e a distribuzioni condizionali.
Controllo del Tasso di Falsi Positivi: Permette di impostare una soglia $\alpha$ per controllare direttamente la probabilità di falsi allarmi.
Implementazione: Gli autori hanno rilasciato il pacchetto R weird per facilitare l'uso pratico di questi metodi.

In sintesi, separando la specificazione del modello di lavoro dalla stima delle probabilità di coda (tramite metodi empirici o GPD), questo approccio risolve molti dei problemi legati alla scelta del modello nelle tecniche tradizionali di anomaly detection, rendendolo uno strumento potente per dati reali complessi.