Conformal calibration and look-elsewhere effect in anomaly… — Spiegazione divulgativa

Immagina di essere un detective che cerca di trovare un tipo specifico di moneta contraffatta nascosta all'interno di un enorme sacco di monete autentiche. Hai un nuovo, tecnologicamente avanzato "rilevatore di anomalie" (un modello di machine learning) che assegna a ogni moneta un "punteggio di stranezza". Più alto è il punteggio, più è probabile che si tratti di un falso.

Il problema è che questo rilevatore è come un indovino selvaggio. Ti dà un punteggio come "17,5", ma quel numero da solo non significa nulla. 17,5 è raro? È comune? Senza un righello per misurarlo, non puoi capire se hai trovato una moneta falsa o solo una moneta normale che è risultata un po' strana per puro caso.

Inoltre, poiché il rilevatore scansiona migliaia di monete, è destinato a trovarne alcune che sembrano "strane" per pura fortuna. Se non tieni conto di quante volte hai guardato, potresti pensare di aver trovato una moneta falsa quando in realtà sei solo stato fortunato.

Questo articolo propone un nuovo "livello di calibrazione" per risolvere questi problemi. Ecco come funziona, usando analogie semplici:

1. Il Righello Rotto (Il Problema della Calibrazione)

Immagina che il tuo rilevatore sia una bilancia che ti dice quanto pesa una moneta, ma la bilancia è rotta. Dice che una moneta normale pesa 17,5 grammi. Non sai se 17,5 sia tanto o poco perché non hai pesato prima un mucchio di monete normali note per stabilire una linea di base.

Gli autori utilizzano uno strumento statistico chiamato Conformal Prediction per costruire un nuovo righello. Prendono un mucchio di monete che sanno essere normali (il "set di calibrazione") e osservano come il rilevatore assegna loro i punteggi. Poi, mappano i punteggi grezzi del rilevatore in un p-value.

L'Analogia: Invece di dire "Questa moneta è strana 17,5", il nuovo righello dice: "Solo l'1% delle monete normali appare così strana". Ora hai un numero chiaro e onesto.

2. La Trappola del "Guarda Ovunque" (Look-Elsewhere Trap)

Se scansioni un intero sacco di monete, prima o poi ne troverai una che sembra leggermente insolita per puro caso. Se scansioni 1.000 monete, trovarne una "strana" non è un grosso problema. Ma se avessi guardato una sola moneta, sarebbe stata una notizia enorme.

L'articolo combina il loro nuovo righello con un metodo chiamato correzione di Gross–Vitells.

L'Analogia: Questo è come un giudice che sa che hai lanciato una moneta 1.000 volte. Se dici: "Ho ottenuto testa 10 volte di fila!", il giudice non guarda solo quella serie; guarda l'intero insieme di 1.000 lanci. Calcola le probabilità di ottenere quella serie da qualsiasi parte nel sacco. Questo evita che tu gridi "Moneta Falsa!" solo perché sei stato fortunato.

3. La Truffa della "Scultura" (Il Fallimento dell'Scambiabilità)

Questo è il più grande scoperto degli autori. Nella fisica delle particelle, gli scienziati usano spesso i "sideband" (aree accanto all'area target) per ipotizzare l'aspetto del fondo (background). Assumono che il fondo nei sideband sia lo stesso del fondo nell'area target.

Gli autori hanno scoperto che in molti modelli di machine learning questa ipotesi è falsa. Il modello impara a usare caratteristiche che sono segretamente legate alla posizione.

L'Analogia: Immagina di cercare una moneta falsa in un vaso specifico. Per calibrare il tuo rilevatore, guardi le monete in un vaso accanto ad esso. Ma il tuo rilevatore ha imparato che "le monete nel vaso a sinistra sono solitamente più pesanti" e "le monete nel vaso a destra sono solitamente più leggere". Anche se tutte le monete sono vere, il tuo rilevatore penserà che le monete nel vaso a destra siano "strane" solo perché si trovano nel vaso a destra.
Il Risultato: Senza correggere questo, il rilevatore crea un "segnale fantasma". Nel test descritto nell'articolo, questo "fantasma" appariva come una scoperta di 46 sigma (un valore astronomicamente enorme, come trovare un ago in una galassia). Era un'illusione completa causata dal bias del rilevatore.

4. La Soluzione: La Correzione "Pesata"

Gli autori risolvono questo problema applicando un peso alla calibrazione.

L'Analogia: Si rendono conto che le monete del "vaso a sinistra" sono leggermente diverse. Quindi, quando usano le monete del vaso a sinistra per calibrare il vaso a destra, danno alle monete del vaso a sinistra uno "sconto" o un "aggiustamento" in modo che corrispondano al profilo del vaso a destra.
L'Esito: Quando applicano questo peso, il segnale falso da 46 sigma scompare completamente. Cade a 0,2 sigma, che è solo rumore di fondo normale. Il rilevatore smette di mentire.

5. La Funzione di "Sicurezza" (Fail-Safe)

Una delle cose migliori di questo metodo è che è onesto anche quando le cose vanno male.

L'Analogia: Se le tue monete di calibrazione sono segretamente contaminate da alcuni falsi, un rilevatore standard potrebbe iniziare silenziosamente a urlare "Falso!" e tu non lo sapresti mai. Ma questo nuovo metodo ha un'autoverifica. Se la calibrazione è errata, il "righello" sembrerà storto (i p-value non saranno uniformi). Dirà: "Ehi, il mio righello è rotto", invece di darti una falsa scoperta.

Sintesi dei Risultati

Gli autori hanno testato questo metodo su dati pubblici dell'LHC (Large Hadron Collider):

Metodi Standard: Quando hanno usato tecniche standard su questi dati, il rilevatore ha inventato segnali falsi di 10 sigma o 5 sigma in aree dove non esisteva alcun segnale. Stava allucinando scoperte.
Il Nuovo Metodo: Quando hanno aggiunto il loro livello di calibrazione, quei segnali falsi sono svaniti. Il rilevatore ha riportato correttamente "Nessun segnale trovato" (un risultato nullo).
Segnali Reali: Quando hanno effettivamente inserito un segnale reale, il metodo era ancora in grado di trovarlo (se il segnale era abbastanza forte), dimostrando che non ha semplicemente "spento" il rilevatore; ha solo smesso di mentire.

Il Punto Fondamentale:
Questo articolo non inventa un nuovo rilevatore di particelle. Inveve, inventa un livello di verità che si posiziona sopra qualsiasi rilevatore. Assicura che quando un rilevatore dice "Abbiamo trovato qualcosa", intenda davvero "Abbiamo trovato qualcosa", e non solo "Siamo stati fortunati" o "La nostra matematica era distorta". Trasforma un punteggio grezzo e confuso in un'affermazione scientifica difendibile e verificabile.

Sintesi Tecnica: Calibrazione Conforme ed Effetto Look-Elsewhere nella Rilevazione di Anomalie per la Ricerca di Nuova Fisica

Enunciato del Problema
La rilevazione di anomalie (AD) basata sull'apprendimento automatico è diventata una strategia primaria per la ricerca di fisica oltre il Modello Standard. Tuttavia, l'interpretazione statistica dei punteggi di AD è rimasta indietro rispetto al loro sviluppo. Un punteggio di anomalia grezzo manca di un significato calibrato; un valore non comunica intrinsecamente la probabilità di una fluttuazione del fondo. I modelli flessibili che scansionano molteplici regioni, osservabili e direzioni latenti soffrono di un acuto "effetto look-elsewhere" (molteplicità), che gonfia i tassi di false scoperte. Gli esistenti workflow sperimentali si affidano a formule asintotiche di profilo-verosimiglianza e fattori di prova (ad esempio, la teoria di Gross–Vitells) che assumono un modello di fondo correttamente modellato. Questi metodi sono ciechi alla errata modellazione del fondo, un modo di fallimento a cui l'AD è particolarmente incline. Quando i dati di addestramento e di valutazione sono condivisi o quando le caratteristiche sono correlate con la variabile risonante (ad esempio, la massa invariante), i pipeline standard producono $p$ -value miscalibrati, potenzialmente fabbricando false scoperte.

Metodologia
Gli autori propongono uno strato di calibrazione basato sulla predizione conforme che trasforma qualsiasi punteggio di anomalia in una significatività difendibile con garanzie distribuzionali indipendenti e su campioni finiti. La metodologia procede attraverso diverse fasi chiave:

Calibrazione Conforme Divisa (Split Conformal Calibration): Gli autori definiscono un $p$ -value conforme monodirezionale, $\hat{p}(s)$ , per un punteggio di test $s$ basato su un set di calibrazione di $n$ punteggi di solo fondo. Questo mappa i punteggi grezzi in $p$ -value tali che, sotto l'ipotesi di scambiabilità, i $p$ -value siano super-uniformi ( $P(\hat{p} \le \alpha) \le \alpha$ ). Ciò fornisce una garanzia su campioni finiti indipendente dalla forma della distribuzione del punteggio.
Affrontare i Fallimenti della Scambiabilità: Le ricerche risonanti spesso violano l'ipotesi di scambiabilità perché la distribuzione del punteggio del fondo nella regione di segnale (SR) differisce dai sideband (SB) a causa delle correlazioni tra le caratteristiche della sottostruttura dei jet e la variabile risonante (massa).
- Predizione Conforme Pesata: Per correggere questo shift di covariata, gli autori impiegano un $p$ -value conforme pesato utilizzando un rapporto di verosimiglianza $w(x) = dQ/dP$ (dove $Q$ è la distribuzione SR e $P$ è la distribuzione SB). Questo peso è stimato senza etichette (label-free) dai dati.
- Calibrazione Mondrian: Per l'eterogeneità dove il fondo varia tra i bin della variabile risonante, gli autori suggeriscono la calibrazione Mondrian (group-conditional), che calibra separatamente all'interno di ogni bin per garantire la validità locale.
Robustezza alla Contaminazione: Il framework affronta la fuga di segnale nei controlli (control regions). Il Teorema 5 stabilisce che se la contaminazione di segnale nel set di calibrazione è stocastica (gli eventi di segnale hanno punteggi più alti del fondo), la procedura rimane valida e diventa conservativa, fallendo in modo sicuro anziché produrre falsi allarmi.
Correzione del Look-Elsewhere: I $p$ -value conformi locali vengono aggregati in un campo di conteggio $Z(m)$ attraverso finestre di scansione. Gli autori applicano la teoria degli up-crossing di Gross–Vitells a questo campo per calcolare una significatività globale. Mentre i $p$ -value locali hanno garanzie su campioni finiti, il passaggio globale è trattato come un limite asintotico, validato contro pseudo-esperimenti di solo fondo.
Controllo del Tasso di Falsa Scoperta (FDR): Per liste brevi multi-regione, viene integrata la procedura di Benjamini–Hochberg per controllare l'FDR, sfruttando la dipendenza positiva dei $p$ -value conformi derivati da un set di calibrazione condiviso.

Contributi Chiave

Uno Strato di Calibrazione: Il documento introduce uno strato modulare che può essere applicato a qualsiasi esistente rilevatore di anomalie senza dover riaddestrare il rilevatore stesso. Converte punteggi non calibrati in $p$ -value locali validi.
Diagnosi e Correzione della Scambiabilità: Il metodo fornisce uno strumento diagnostico (controllare l'uniformità dei $p$ -value del fondo) per rilevare i fallimenti della scambiabilità causati dalle correlazioni tra caratteristiche e massa. Offre una correzione pesata label-free per ripristinare la validità.
Garanzie su Campioni Finiti: A differenza dei metodi asintotici, lo strato conforme offre una validità rigorosa su campioni finiti che è robusta alla mismodellazione del fondo, a patto che le assunzioni (scambiabilità o shift di covariata correggibile) siano soddisfatte.
Integrazione con i Fattori di Prova: L'opera colma il divario tra la predizione conforme e la statistica delle scoperte nell'alta energia (HEP) combinando la calibrazione locale su campioni finiti con il framework della significatività globale di Gross–Vitells.

Risultati
La metodologia è stata testata sul dataset LHC Olympics 2020 R&D (fondo QCD dijet con un risonanza $Z' \to XX$ iniettata).

Rilevazione della Miscalibrazione: Sui dati reali, un classificatore calibrato su sideband ha mostrato un significativo fallimento della scambiabilità. I $p$ -value del fondo erano anti-conservativi, con $P(\hat{p} \le 0.05) \approx 0.087$ invece del nominale 0.05.
Correzione di Eccessi Spurii:
- Un conteggio ingenuo degli eventi con $p \le 0.05$ nella regione di segnale ha prodotto un eccesso spurio di circa $\sim 46\sigma$ .
- L'applicazione della correzione pesata label-free ha ripristinato il tasso di fondo al valore nominale, riducendo la significatività a un nullo onesto ( $Z \approx 0.2$ ).
- In una scansione di massa ampia e cieca (riaddestrando il rilevatore in ogni finestra), i procedure asintotici standard e conformi non pesati hanno fabbricato eccessi $\gtrsim 10\sigma$ in finestre prive di segnale. Lo strato conforme pesato non ha prodotto falsi allarmi, con significatività globali coerenti con il nullo.
Validazione della Significatività Globale: Il tasso di falsi positivi globale della procedura conforme pesata è stato verificato su pseudo-esperimenti di solo fondo, mostrando un controllo empirico vicino al livello nominale.
Recupero del Segnale: In uno studio di controllo positivo con iniezioni di segnale più forti ( $S/B \approx 1.3\%$ ) e minima contaminazione di sideband, la catena pesata ha recuperato con successo una significatività globale di $\sim 7.4\sigma$ , dimostrando che il metodo non sopprime i segnali genuini, ma corregge solo i bias sistematici.

Significatività e Rivendicazioni
Il documento sostiene di fornire un percorso auditabile e indipendente dal rilevatore dal punteggio di anomalia non calibrato alla significatività globale consapevole dei fattori di prova.

Il valore primario non è un nuovo rilevatore, ma un livello di calibrazione e significatività che rende esplicite e verificabili le assunzioni.
Espone fallimenti "silenziosi" (come lo sculpting del fondo) che i pipeline asintotici standard mancano, convertendoli in non-uniformità visibili o correggendoli tramite pesatura.
Gli autori sottolineano che, sebbene i $p$ -value locali abbiano garanzie su campioni finiti, la significatività globale dipende da assunzioni asintotiche (Gross–Vitells) che sono empiricamente validate nel loro studio.
Il lavoro evidenzia che l'effetto "look-elsewhere" nell'AD è esacerbato dalla molteplicità delle regioni e dalla correlazione tra le caratteristiche e la variabile risonante, e che la predizione conforme offre un quadro rigoroso per affrontare questi specifici modi di fallimento.

Il documento conclude che, sebbene il metodo non risolva tutti i sistemi di errore del fondo (ad esempio, mismodellazione sconosciuta e non parametrizzata), migliora significativamente l'affidabilità delle ricerche AD assicurando che le significatività riportate non siano artefatti di fallimenti di calibrazione. Il lavoro futuro identifica l'integrazione dei parametri di disturbo (sistematiche del rivelatore) nel framework conforme e il confronto diretto di questo approccio con rilevatori con decorrelazione della massa.

Conformal calibration and look-elsewhere effect in anomaly detection for new-physics searches