CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles

Each language version is independently generated for its own context, not a direct translation.

🎭 Il Problema: Troppi Registi, Troppi Film

Immagina di voler capire come funziona un grande film (in questo caso, un'intelligenza artificiale) smontandolo pezzo per pezzo per vedere chi fa cosa.
Il problema è che, fin ora, per fare questo "smontaggio", gli esperti dovevano fare delle scelte arbitrarie: "Tagliamo tutto ciò che pesa meno del 50%" oppure "Usiamo questa specifica lente per guardare i dettagli".

Ogni volta che cambi un po' questi parametri (come cambiare la lente della macchina da presa), ottieni un film diverso. A volte il protagonista è un attore, a volte un'attrice, a volte un'ombra. Non c'era un modo sicuro per dire: "Questa scena è davvero importante" oppure "Questa è solo una distrazione dovuta alla mia lente". Il risultato era fragile e incerto.

🎪 La Soluzione: CIRCUS (Il Circo della Certezza)

Gli autori di questo paper, Swapnil Parekh, hanno detto: "E se invece di scegliere una sola lente, ne usassimo un'intera carovana?".

Hanno creato un metodo chiamato CIRCUS (Circuit Consensus under Uncertainty via Stability Ensembles). Ecco come funziona, con un'analogia semplice:

1. L'Ensemble (La Carovana di Artisti)

Invece di guardare il modello una volta sola con un'impostazione fissa, CIRCUS lo guarda molte volte con impostazioni leggermente diverse (come se avessimo 25 diversi registi che guardano lo stesso film).

Ogni "regista" taglia via le parti che ritiene meno importanti secondo le sue regole.
Alla fine, abbiamo 25 versioni diverse del "film tagliato".

2. Il Voto di Stabilità (Chi è il vero protagonista?)

Ora, CIRCUS prende tutte queste 25 versioni e chiede: "Quale attore è apparso in TUTTI i film?".

Se un attore (o un collegamento tra due parti del cervello dell'AI) appare in tutte le 25 versioni, ottiene un punteggio di stabilità del 100%. Questo è il Nucleo Consensuale. È la parte che davvero conta, indipendentemente da come lo guardi.
Se un attore appare solo in 2 o 3 versioni, è un "contingente": potrebbe essere importante, ma dipende da come lo guardi.
Se appare solo una volta, è probabilmente "rumore" (un errore o una distrazione).

3. Il Risultato: Un Circuito "Core" Piccolo e Potente

Il metodo CIRCUS estrae solo il Nucleo Consensuale (quello che appare sempre).

Risultato sorprendente: Questo nucleo è 40 volte più piccolo dell'insieme di tutte le parti che qualcuno ha mai visto, ma mantiene quasi tutta la potenza esplicativa del modello.
È come se, invece di avere un elenco di 10.000 persone che potrebbero aver partecipato al film, avessi un elenco di 250 persone che sappiamo per certo ci hanno lavorato.

🧪 La Prova: Funziona Davvero?

Per essere sicuri che non stessero solo "indovinando", hanno fatto un test chiamato "Activation Patching" (che possiamo immaginare come un esperimento medico).
Hanno preso le parti del cervello dell'AI identificate da CIRCUS e le hanno "sostituite" con quelle di un modello pulito.

Risultato: Quando hanno usato le parti del "Nucleo Consensuale", il modello funzionava perfettamente. Quando usavano parti a caso o parti che apparivano solo in alcune versioni, il modello falliva.
Questo prova che CIRCUS ha trovato le parti causali vere, non solo coincidenze statistiche.

🌟 Perché è Importante? (In parole povere)

Niente più "Scommesse": Prima, se cambiavi un numero nel computer, cambiava tutta la spiegazione. Ora, CIRCUS ti dice: "Ecco la parte solida (il Nucleo) e ecco le parti che dipendono dalle tue scelte (le Alternative)".
Risparmio di Tempo: Non devi ri-addestrare il modello o fare calcoli enormi. Usa i dati che hai già, li mescola e ti dà la risposta più sicura.
Fiducia: Ti permette di dire con certezza: "Queste sono le parti del cervello dell'AI che fanno davvero il lavoro sporco".

In Sintesi

Immagina di dover trovare il tesoro in una montagna piena di nebbia.

Metodo vecchio: Un esploratore entra, vede qualcosa, e dice "Il tesoro è lì!". Ma se cambia la nebbia, vede qualcos'altro.
Metodo CIRCUS: Manda 25 esploratori con mappe diverse. Se tutti e 25 vedono la stessa roccia, allora quel è il tesoro. Se uno vede un albero e un altro un sasso, probabilmente sono solo illusioni della nebbia.

CIRCUS ci dà la mappa del tesoro che non sbaglia mai, indipendentemente dalla nebbia (l'incertezza) che c'è intorno.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Incertezza nella Scoperta dei Circuiti Meccanici

La scoperta di circuiti meccanicistici (sotto-grafi sparsi che supportano causalmente un comportamento in un modello di linguaggio) è un obiettivo centrale nell'interpretabilità. Tuttavia, le pipeline attuali sono notoriamente sensibili a scelte arbitrarie dell'analista, in particolare:

Soglie di pruning (potatura): La decisione su quali bordi mantenere basata sull'influenza cumulativa.
Dizionari delle feature: La scelta del checkpoint specifico del transcoder (es. cross-layer transcoder) utilizzato per mappare le attivazioni.

Queste scelte generano spiegazioni "one-shot" (singole) fragili. Diverse configurazioni producono grafi diversi con interpretazioni divergenti, senza un modo principiato per distinguere la struttura stabile dai "falsi positivi" o artefatti. Attualmente, non esiste una nozione principiale di incertezza associata a queste strutture.

2. Metodologia: CIRCUS

Il paper propone CIRCUS (Circuit Consensus under Uncertainty via Stability Ensembles), un metodo che riformula la scoperta dei circuiti come un problema di quantificazione dell'incertezza. Invece di riportare un singolo grafo, CIRCUS costruisce un ensemble di grafi di attribuzione per identificare quali strutture sono robuste.

Il Flusso di Lavoro (Pipeline)

Config-Bagging (Ensemble di Configurazioni):
- Si esegue una singola corsa di attribuzione grezza (raw attribution run).
- Si applicano $B$ diverse configurazioni di pruning (variando le soglie di nodo e bordo) allo stesso grafo grezzo.
- Questo genera $B$ "viste" (grafi potati), senza richiedere il ri-addestramento del modello.
Punteggio di Stabilità (Stability Score):
- Per ogni bordo $e$ nel grafo completo, viene calcolato un punteggio di stabilità $s(e)$ , definito come la frazione di viste che mantengono quel bordo:
  $s(e) = \frac{1}{B} \sum_{b=1}^{B} \mathbb{I}[e \in E(b)]$
- Un punteggio di 1 indica che il bordo appare in tutte le configurazioni (consenso rigoroso).
Decomposizione dell'Incertezza:
- Incertezza Epistemica (Analitica): Variabilità dovuta alle scelte dell'analista (soglie/dizionari). Misurata da $s(e)$ .
- Variabilità Istanza (Aleatoria): Variabilità dovuta a diversi prompt.
Estrazione del Consenso:
- Circuito di Consenso Rigoroso ( $C_1$ ): Include solo i bordi con $s(e) = 1$ (presenti in tutte le viste). Questo rappresenta il "nucleo" robusto alla soglia.
- Alternative Contingenti: Bordi con stabilità media ma alta influenza, che rappresentano percorsi alternativi plausibili.
- Rifiuto (Noise): Bordi a bassa stabilità e bassa influenza, che possono essere scartati.
Boosting (Test di Incertezza Residua):
- Se il consenso rigoroso ( $C_1$ ) non cattura abbastanza influenza, si costruisce un circuito "boostato" ( $C_1 \cup C_2$ ) analizzando l'influenza residua sui bordi non inclusi nel consenso, per recuperare la copertura senza sacrificare la robustezza del nucleo.

3. Contributi Chiave

Metodologia: Introduzione di una pipeline "bagged" che assegna punteggi di stabilità basati sulla frequenza, estrae circuiti di consenso rigoroso e fornisce un'interfaccia esplicita per il rifiuto/alternative.
Efficienza: Il metodo non richiede ri-addestramento e aggiunge un overhead computazionale trascurabile (ordini di millisecondi) poiché aggrega strutture da grafi già calcolati.
Taxonomia dell'Incertezza: Propone una classificazione pratica dei bordi in tre categorie: Core (stabile), Contingent (alternativa influente) e Noise (instabile).
Validazione Causale: Integrazione di test di causalità (activation patching) per verificare che i nodi identificati dal consenso siano effettivamente causalmente rilevanti.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su Gemma-2-2B e Llama-3.2-1B utilizzando cross-layer transcoder pubblici.

Riduzione Dimensionale: I circuiti di consenso rigoroso sono circa 40 volte più piccoli rispetto all'unione di tutte le configurazioni, mantenendo un potere esplicativo (Influence Retained - IR) comparabile.
Superiorità rispetto alle Baseline: Il consenso supera la baseline "unione potata" (dove si prende l'unione di tutti i bordi e si taglia per eguagliare la dimensione del consenso). Ad esempio, con un budget di 625 bordi, il consenso ottiene un IR di 0.78, contro 0.73 della baseline unione-potata.
Validazione Causale (Activation Patching):
- I nodi identificati dal consenso hanno dimostrato una rilevanza causale significativamente superiore rispetto a controlli non-consensuali.
- Statistiche: $p = 0.0004$ nel confronto tra recupero del consenso e controlli abbinati.
Robustezza Multi-Prompt: Su 20 prompt diversi, il consenso ha mantenuto un IR medio di $0.83 \pm 0.05$ , superando i controlli di sanità (sanity checks) in tutti i casi.
Trade-off Dimensione-Influenza: Il consenso raggiunge un IR vicino al massimo possibile (entro il 16.3% del miglior singolo threshold) utilizzando solo il 2.5% degli archi della configurazione migliore singola.

5. Significato e Implicazioni

CIRCUS fornisce un quadro pratico e consapevole dell'incertezza per la reportistica di circuiti meccanicistici.

Affidabilità e Audit: Permette di distinguere tra strutture fondamentali (core) e strutture dipendenti da scelte analitiche specifiche, rendendo le spiegazioni più affidabili e auditabili.
Gestione dell'Incertezza: Trasforma la variabilità delle configurazioni da un problema (rumore) a una risorsa per quantificare la stabilità.
Scalabilità: Essendo basato su grafi già calcolati, è applicabile a pipeline esistenti senza costi significativi.
Futuro: Il lavoro apre la strada a futuri sviluppi su mascheramento di modelli di sostituzione (replacement-model masking) per una validazione di fedeltà completa e allineamento su più checkpoint di transcoder.

In sintesi, CIRCUS sposta il paradigma dalla ricerca di "la" spiegazione corretta alla mappatura di "quali" parti della spiegazione sono robuste e quali sono contingenti, offrendo una base solida per l'interpretazione dei modelli di grandi dimensioni.