Dissecting Jet-Tagger Through Mechanistic Interpretability

Il quadro generale: Aprire la scatola nera

Immaginate un investigatore altamente qualificato (un programma informatico chiamato Particle Transformer) addestrato a osservare una scena del crimine caotica (un "getto" di particelle creato in un collisore di particelle) e decidere: "È stato un Quark Top (il sospetto) o semplicemente un rumore di fondo casuale (QCD)?".

Per molto tempo, abbiamo saputo che l'investigatore era incredibilmente bravo a risolvere il caso, ma non sapevamo come funzionasse. Era una "scatola nera". Questo documento è come assumere una squadra forense per aprire il cervello dell'investigatore, mappare esattamente quali neuroni si stanno attivando e spiegare la logica passo dopo passo che utilizzano per arrivare a una sentenza.

Il cervello dell'investigatore: Una squadra di specialisti

I ricercatori hanno scoperto che l'investigatore non usa tutto il cervello per risolvere il caso. Invece, si affida a una minuscola ed efficiente squadra di soli sei specialisti (su 16 disponibili) per compiere il 97% del lavoro pesante. Chiamano questa squadra il "Circuito".

Ecco come funziona questa squadra di sei persone, usando un'analogia con una staffetta:

Lo Scout (Fonte Primaria): Uno specialista nel primo strato del cervello agisce come lo scout. Questa persona non cerca direttamente i "cattivi". Invece, scansiona la folla cercando il "rumore di fondo" (particelle morbide e in collisione). Comprendendo il rumore, preparano il terreno per tutti gli altri. Sono la persona più importante; se li rimuovete, la squadra perde quasi tutta la sua capacità di risolvere il caso.
Il Secondo Scout (Fonte Secondaria): Un altro specialista nel primo strato aiuta lo Scout. Sono molto simili allo Scout ma si concentrano su dettagli leggermente diversi.
I Corridori di Staffetta (Strato Centrale): Tre specialisti negli strati intermedi agiscono come corridori. Prendono le informazioni dagli Scout e cercano qualcosa di specifico: coppie pesanti ed energetiche di particelle. Nel mondo della fisica delle particelle, un Quark Top decade in un "bosone W", che poi si divide in due particelle pesanti. Questi corridori sono esperti nel individuare queste coppie pesanti.
- Scoperta Cruciale: Anche se l'investigatore dovrebbe trovare un "Quark Top" (che è una struttura a 3 parti), questi corridori in realtà stanno solo cercando il "bosone W" (una struttura a 2 parti). Il documento suggerisce che l'investigatore ha capito una scorciatoia: "Se riesco a trovare il pesante bosone W a 2 parti, posso essere abbastanza sicuro che sia un Quark Top". È come un investigatore che risolve un omicidio trovando l'arma del delitto, invece di cercare di ricostruire l'intera scena del crimine.
Il Giudice (Lettura): Uno specialista nello strato finale agisce come il giudice. Non guarda direttamente le particelle. Invece, prende i rapporti dai Corridori di Staffetta, li riassume e prende la decisione finale: "Colpevole" (Quark Top) o "Non Colpevole" (Fondo).

Il momento "Eureka": Non è una nuova idea, solo un nuovo linguaggio

Una delle scoperte più sorprendenti nel documento riguarda quando l'investigatore prende la sua decisione.

Di solito, pensiamo che l'investigatore raccolga indizi strato per strato e improvvisamente esulti: "So chi l'ha fatto!" alla fine. Tuttavia, i ricercatori hanno scoperto che l'investigatore conosce effettivamente la risposta quasi immediatamente (dopo il primo strato di scansione).

Allora, perché il passaggio finale sembra così drammatico?

L'Analogia: Immaginate che l'investigatore abbia la risposta scritta in un codice segreto (un linguaggio diverso) nel suo primo strato. Il passaggio finale non è "pensare" o "trovare nuovi indizi"; è semplicemente tradurre quel codice segreto in inglese semplice in modo che il giudice finale possa leggerlo.
Il documento chiama questo una "Rotazione di Base". Le informazioni erano già lì; dovevano solo essere ruotate nella giusta orientazione per essere comprese dall'output finale.

Cosa ha effettivamente imparato l'investigatore?

I ricercatori hanno anche controllato che tipo di "fisica" l'investigatore abbia imparato. Hanno confrontato le note interne dell'investigatore con le formule fisiche standard utilizzate dagli esperti umani.

Il Risultato: L'investigatore ha ignorato le formule complesse a 3 parti che gli umani usano di solito. Invece, ha scoperto e preferito naturalmente formule più semplici a 2 parti (chiamate Correlatori di Energia).
La Lezione: Il computer non aveva bisogno che un umano gli dicesse: "Cerca il bosone W!". Ha capito da solo che trovare il decadimento pesante a 2 parti era il modo più semplice e affidabile per risolvere il puzzle. Ha riscoperto una verità fisica significativa semplicemente cercando di vincere il gioco.

Riepilogo

Questo documento dimostra che possiamo prendere un'IA complessa e moderna utilizzata nella fisica delle alte energie e retro-ingegnerizzarla per trovare un circuito semplice e logico al suo interno.

È efficiente: Una minuscola squadra di 6 "neuroni" fa quasi tutto il lavoro.
È logica: La squadra segue un percorso chiaro: Scansionare il rumore $\rightarrow$ Trasmettere le coppie pesanti $\rightarrow* Giudicare il risultato.
È intelligente: L'IA ha capito che risolvere un sottoproblema più semplice (trovare il bosone W a 2 parti) è il modo migliore per risolvere il grande problema (trovare il Quark Top).
È una traduzione: Il passaggio finale dell'IA è solo tradurre la sua conoscenza iniziale e segreta in una risposta finale, non una nuova scoperta.

Gli autori concludono che gli strumenti che usiamo per comprendere i modelli linguistici dell'IA (come i Chatbot) funzionano perfettamente anche per comprendere l'IA nella fisica delle particelle, rivelando che queste macchine possono imparare profonde verità fisiche da sole.

Sintesi Tecnica: Dissecting Jet-Tagger attraverso l'Interpretabilità Meccanica

Enunciato del Problema
Le architetture di deep learning, in particolare il Particle Transformer (ParT), hanno raggiunto prestazioni all'avanguardia nelle attività di jet tagging, come distinguere i decadimenti adronici del quark top dai jet di fondo QCD. Tuttavia, i meccanismi computazionali interni attraverso i quali questi modelli prendono decisioni di classificazione rimangono opachi. Sebbene lavori precedenti abbiano utilizzato metodi di attribuzione post-hoc (ad esempio, valori di Shapley, mappe di salienza) o visualizzazione dell'attenzione, questi approcci identificano quali input siano rilevanti ma non spiegano come la rete li combini o isolino il sotto-network causale minimo (circuito) responsabile del comportamento. Questo articolo mira a colmare tale lacuna applicando l'intero toolkit dell'interpretabilità meccanica — originariamente sviluppato per i modelli linguistici — a un classificatore di fisica dei jet.

Metodologia
Gli autori hanno addestrato un Particle Transformer ridotto (4 strati di attenzione sulle particelle, 4 teste per strato, ~1,3 milioni di parametri) su un sottoinsieme del dataset di riferimento per il tagging del quark top (segnale: $t \to Wb \to q\bar{q}b$ ; fondo: quark leggeri/gluoni). L'analisi impiega una serie di tecniche di intervento e sondaggio:

Ablazione a Zero: Impostazione sistematica dell'output di singole teste di attenzione a zero per misurarne l'importanza strutturale attraverso il calo della differenza media dei logit.
Path Patching: Un intervento causale in cui l'output di una specifica testa su un input "pulito" viene sostituito in un input "corrotto" (utilizzando la sostituzione di particelle all'interno del batch o la permutazione dell'intero jet). Questo isola gli effetti diretti e gli effetti di percorso (flusso di informazioni) tra le teste.
Logit Lens & Sonde per Strato: Il logit lens standard proietta le rappresentazioni intermedie attraverso l'ultimo strato di classificazione addestrato. Per risolvere il disallineamento della base, gli autori hanno inoltre addestrato sonde di regressione logistica per strato sulla rappresentazione di ogni strato per determinare la vera accessibilità lineare delle informazioni di classe.
Sondaggio Lineare: Addestramento di modelli di regressione Ridge per prevedere osservabili classici di sottostruttura del jet (ad esempio, $N$ -subjettiness, Energy Correlation Functions) dal flusso residuo a varie profondità per caratterizzare il contenuto fisico delle rappresentazioni interne.

Contributi e Risultati Chiave

Identificazione di un Circuito Sparsa a Sei Teste: Attraverso l'abblazione a zero e il path patching, gli autori hanno identificato un circuito minimo di sei teste di attenzione che recupera il 97,3% dell'AUC del modello completo. Questo circuito è significativamente più performante rispetto a sottoinsiemi casuali di sei teste (situandosi al 96° percentile di una distribuzione di riferimento casuale).
Struttura Causale (Sorgente-Rilievo-Lettura): Il circuito esibisce una chiara gerarchia causale:
- Sorgente Primaria ( $L0H1$ ): Una singola testa nel primo strato di attenzione sulle particelle che agisce come sorgente causale primaria. Da sola recupera l'88,6% dell'AUC del modello completo ed esibisce un "super-recupero" nel path patching. Si focalizza preferenzialmente su coppie di particelle morbide e collineari, fornendo una normalizzazione contestuale.
- Sorgente Secondaria ( $L0H2$ ): Una testa nello stesso strato con uno spazio rappresentativo simile a $L0H1$ ma un ruolo causale distinto, che contribuisce con un segnale complementare.
- Teste di Rilievo ( $L1H0, L1H1, L1H3$ ): Un cluster di teste nel secondo strato che si focalizzano selettivamente sulla sottostruttura di coppie dure (alta massa invariante, alto $k_T$ ). La loro funzione è condizionata dal segnale a monte proveniente dalle teste sorgente.
- Testa di Lettura ( $L3H3$ ): Una singola testa nel quarto strato che aggrega i segnali rilavati.
Rotazione di Base vs. Guadagno di Informazione: L'analisi standard del logit lens suggeriva che l'informazione di classe emergesse solo nel primo blocco di attenzione per la classe ($Cls0$), mostrando un salto da un AUC di 0,111 a 0,973. Tuttavia, le sonde addestrate per strato hanno rivelato che il segnale discriminante per la classe è già linearmente accessibile con AUC $\approx$ 0,97 già dal primo strato di attenzione sulle particelle ( $L1$ ). Il drastico salto a $Cls0$ è quindi interpretato non come una generazione di nuova informazione, ma come una rotazione di base che allinea il segnale latente alla base dell'ultimo strato di classificazione.
Contenuto Fisico: Codifica 2-Prong rispetto a 3-Prong: Il sondaggio lineare del flusso residuo contro osservabili classici ha rivelato che il modello codifica preferenzialmente osservabili di correlatori energetici 2-Prong (ad esempio, $D^{(\beta=1)}_2$ ) rispetto agli osservabili 3-Prong (ad esempio, $C^{(\beta=1)}_3, N^{(\beta=1)}_3$ ), nonostante il compito sia il tagging di top a 3 corpi. Il modello fattorizza implicitamente il problema, focalizzandosi sull'identificazione del decadimento adronico del bosone $W$ (una sottostruttura a 2 corpi) piuttosto che sull'intera topologia a 3 corpi. Questa preferenza persiste anche dopo aver rimosso la massa del jet.
Base dei Correlatori Energetici: Il flusso residuo è allineato preferenzialmente alla base dei Correlatori Energetici rispetto alla base della $N$ -subjettiness, suggerendo che il modello ha riscoperto strutture fisicamente significative attraverso la discesa del gradiente senza supervisione esplicita.

Significato e Affermazioni
L'articolo afferma di dimostrare che i metodi di interpretabilità meccanica sviluppati per i modelli linguistici possono essere trasferiti con successo ai classificatori di fisica dei jet. I risultati indicano che:

La discesa del gradiente può riscoprire aspetti fisicamente significativi del jet tagging (in particolare la fattorizzazione del decadimento del top in un sottoproblema del bosone $W$ ) senza vincoli fisici espliciti nell'architettura.
La struttura del circuito sorgente-rilievo-lettura identificata qui potrebbe essere un pattern caratteristico per i Transformer nel dominio della fisica, distinto dalla struttura specifica dei modelli linguistici.
Lo studio sottolinea la necessità di strategie di corruzione su varietà (on-manifold) per il path patching in dataset fisici cinematicamente stretti, poiché la corruzione fuori varietà (Gaussiana) può portare a incompatibilità strutturali con le formulazioni standard del punteggio di recupero.

Gli autori rimangono modesti riguardo all'universalità dei loro risultati, notando che il circuito specifico a sei teste è stato identificato su un modello ridotto e che modelli più grandi potrebbero possedere strutture di circuito più ricche. Riconoscono inoltre che le sonde lineari forniscono un limite inferiore sul contenuto informativo, poiché le codifiche non lineari non vengono rilevate.