Structural Inference: Interpreting Small Language Models with Susceptibilities

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un piccolo cervello artificiale, un "modello linguistico", che ha imparato a leggere e scrivere leggendo milioni di libri, articoli e codice informatico. Ora, chiediamoci: come funziona esattamente la sua mente? Quali sono i suoi "pensieri" nascosti?

Questo paper, intitolato "Inferenza Strutturale", propone un modo nuovo e affascinante per rispondere a questa domanda, prendendo in prestito un concetto dalla fisica: la susceptibilità (o suscettività).

Ecco una spiegazione semplice, usando metafore quotidiane.

1. Il Modello come un Materiale Strano

Immagina il tuo modello linguistico non come un computer, ma come un pezzo di materiale speciale, come un metallo o un cristallo.

Nella fisica, se avvicini una calamita a un pezzo di ferro, il ferro reagisce: i suoi atomi interni si allineano. Questa reazione si chiama "susceptibilità magnetica".
In questo paper, gli autori trattano il modello linguistico come quel materiale. Invece di una calamita, usano cambiamenti nei dati (ad esempio, leggere più codice informatico o più testi legali) come se fossero il "campo magnetico".

2. Il Test: "Cosa succede se cambiamo il cibo?"

Per capire come è fatto il cervello del modello, gli autori fanno un esperimento mentale:

Immagina di nutrire il modello con una dieta normale (tutti i tipi di testo mescolati).
Poi, aggiungi un pizzico di "spezie" diverse: un po' di codice GitHub, un po' di testi legali, o articoli scientifici.
Osservano come reagiscono i singoli "neuroni" (o meglio, le testine di attenzione, che sono le parti del modello che decidono su quali parole concentrarsi).

La susceptibilità misura quanto una specifica parte del modello "si agita" o "reagisce" quando cambi il tipo di testo che legge.

Se una testina si eccita molto leggendo codice, ha un'alta suscettibilità per il codice.
Se un'altra testina si calma o si oppone quando legge certi testi, ha una suscettibilità negativa.

3. Espressione vs. Soppressione: Il Coro del Modello

Il paper scopre che il modello non è un blocco unico, ma un coro di voci diverse che fanno cose opposte:

Espressione (Susceptibilità Negativa): Alcune parti del modello dicono: "Sì! Questa parola segue perfettamente quella precedente!". Sono come i cantanti che spingono la melodia in avanti.
Soppressione (Susceptibilità Positiva): Altre parti dicono: "No, aspetta! Non dire quella parola, è sbagliata in questo contesto!". Sono come i direttori d'orchestra che zittiscono uno strumento per mantenere l'armonia.

L'analogia della cucina:
Immagina il modello come una cucina affollata.

Quando arriva un ordine per una pizza (testo legale), il pizzaiolo (una testina specifica) si attiva e inizia a stendere l'impasto (espressione).
Ma il sommelier (un'altra testina) potrebbe dire: "Niente vino rosso con la pizza, è troppo forte!" e cerca di bloccare quella scelta (soppressione).
Il paper ci permette di vedere chi sta facendo cosa, misurando chi reagisce di più quando cambiamo il "menu" (i dati).

4. La Scoperta: Trovare i "Circuiti" Nascosti

Usando questo metodo, gli autori hanno analizzato un modello piccolo (3 milioni di parametri) e hanno scoperto strutture interne molto precise, confermando ciò che altri avevano ipotizzato con metodi diversi:

Hanno trovato l'"Induction Circuit" (Circuito di Induzione): È come un piccolo gruppo di amici nel modello che lavora insieme per riconoscere schemi ripetitivi (es. "A... B... A... B"). Quando il modello vede questi schemi, questo gruppo si attiva per prevedere la ripetizione.
Hanno trovato le "Multigram Heads": Altre parti del modello che invece cercano di bloccare queste ripetizioni, forse per evitare di essere troppo prevedibili o per gestire grammatica complessa.

5. Perché è importante?

Fino a poco tempo fa, capire come funzionano questi modelli era come guardare una scatola nera: vedevamo l'input e l'output, ma non sapevamo cosa succedeva dentro.
Questo paper ci dà una radiografia.

Non dobbiamo più indovinare.
Possiamo dire: "Ah, questa parte del modello è specializzata nel riconoscere le parentesi quadre, mentre quella parte odia le ripetizioni" semplicemente osservando come reagisce a piccoli cambiamenti nel testo.

In Sintesi

Gli autori hanno inventato un nuovo modo per "interrogare" l'intelligenza artificiale. Invece di smontarla pezzo per pezzo (come si fa con i test di ablazione, dove si spengono i neuroni per vedere cosa manca), usano un approccio più sottile: osservano come il modello "vibra" quando cambia l'ambiente.

È come se invece di spegnere le luci in una stanza per vedere come reagiscono le persone, facessimo entrare un po' di luce rossa o blu e osservassimo chi si muove, chi si ferma e chi cambia colore. Questo ci permette di mappare la "personalità" interna di ogni piccola parte del cervello artificiale, rivelando che è un sistema complesso, bilanciato tra chi spinge le idee e chi le frena.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "Structural Inference: Interpreting Small Language Models with Susceptibilities", pubblicato come paper conferenziale all'ICLR 2026.

1. Il Problema

L'organizzazione microscopica interna delle reti neurali che abilita i loro comportamenti complessi rimane scarsamente compresa. Sebbene esistano metodi di interpretabilità meccanicistica (come le ablation studies o l'analisi dei logit diretti), questi spesso richiedono interventi manuali o ipotetici sui neuroni. Il paper affronta la sfida di sviluppare un quadro teorico rigoroso e scalabile per:

Quantificare come i componenti specifici di un modello (es. testine di attenzione) rispondono a cambiamenti nella distribuzione dei dati.
Scoprire automaticamente la struttura interna del modello e collegarla a pattern specifici nei dati di addestramento.
Comprendere il bilanciamento tra "espressione" (promozione) e "soppressione" di certi pattern linguistici.

2. Metodologia: Inferenza Strutturale e Suscettibilità

Il lavoro introduce un nuovo paradigma di interpretabilità basato sulla meccanica statistica bayesiana.

Concetto Fondamentale: Suscettibilità

Gli autori trattano la rete neurale come un sistema statistico meccanico bayesiano. La suscettibilità ( $\chi$ ) è definita come la risposta lineare del primo ordine all'aspettativa di un'osservabile (es. la perdita su un componente specifico) quando si applica una piccola perturbazione alla distribuzione dei dati.

Perturbazione: Si introduce una variazione controllata nella distribuzione dei dati (es. mescolando il dataset originale con un sottoinsieme specifico come GitHub o testo legale).
Osservabile: Si monitora come cambia la perdita locale su un componente della rete (es. una specifica testina di attenzione).
Formula: La suscettibilità è calcolata come la covarianza negativa tra l'osservabile (perdita del componente) e la variazione della perdita globale indotta dalla perturbazione dei dati:
$\chi = -\text{Cov}_\beta [\phi, \Delta L]$
dove $\phi$ è l'osservabile e $\Delta L$ è la differenza di perdita dovuta alla perturbazione.

Stima Pratica (Local Susceptibility)

Poiché campionare dall'intera posterior bayesiana è computazionalmente proibitivo, gli autori introducono le suscettibilità locali.

Si utilizza un prior gaussiano centrato sui pesi ottimali di un checkpoint specifico ( $w^*$ ).
Si campionano i pesi vicini a $w^*$ utilizzando Stochastic Gradient Langevin Dynamics (SGLD).
Questo permette di stimare la suscettibilità per singoli checkpoint e componenti specifici in modo efficiente.

Interpretazione dei Segni

Suscettibilità Negativa (Espressione): Indica che il componente "promuove" o è necessario per predire quel pattern di dati. Le variazioni che riducono la perdita globale aumentano la probabilità del token target.
Suscettibilità Positiva (Soppressione): Indica che il componente "inibisce" o si oppone al pattern. Le variazioni che riducono la perdita globale diminuiscono la probabilità del token target (il componente sta attivamente sopprimendo una previsione alternativa o errata).

Inferenza Strutturale

Gli autori costruiscono una matrice di risposta ( $X$ ) dove le righe sono le perturbazioni dei dati (diversi dataset o pattern) e le colonne sono i componenti del modello (testine di attenzione). Applicando l'Analisi delle Componenti Principali (PCA) a questa matrice, è possibile:

Identificare i modi (pattern) dominanti nei dati.
Mappare quali componenti del modello sono associati a quali modi.
Separare i circuiti funzionali basati sulla loro risposta differenziale ai dati.

3. Contributi Chiave

Quadro Teorico: Sviluppo di un framework teorico rigoroso che collega la teoria dell'apprendimento bayesiano, la meccanica statistica e la teoria dell'apprendimento singolare (Singular Learning Theory) per definire le suscettibilità.
Metodologia di Stima: Introduzione di un metodo pratico per stimare le suscettibilità su modelli reali usando SGLD e prior locali, evitando la necessità di campionare l'intera posterior globale.
Scoperta di Struttura: Dimostrazione che l'analisi delle suscettibilità può automaticamente isolare circuiti funzionali noti (come il circuito di induzione) e distinguere tra testine che esprimono pattern e testine che li sopprimono.
Connessione Espressione/Soppressione: Fornisce una definizione quantitativa e basata sui dati per il fenomeno della soppressione, spesso osservato ma difficile da isolare con metodi di ablation tradizionali.

4. Risultati Sperimentali

Il metodo è stato applicato a un trasformatore da 3 milioni di parametri addestrato su un sottoinsieme del dataset The Pile.

Identificazione del Circuito di Induzione:
- L'analisi PCA sulla matrice di suscettibilità ha rivelato una componente principale (PC2) che separa chiaramente le testine del "circuito di induzione" (es. 1:6, 1:7) dalle testine "multigramma" (es. 1:0 - 1:5).
- Le testine del circuito di induzione mostrano una forte suscettibilità negativa (espressione) sui pattern di induzione, mentre le testine multigramma mostrano una suscettibilità positiva (soppressione) sugli stessi pattern. Questo conferma e quantifica meccanismi scoperti in lavori precedenti (es. Wang et al., 2024; Hoogland et al., 2025).
Segmentazione delle Parole:
- La prima componente principale (PC1) è uniforme su tutte le testine e mostra una forte associazione con la segmentazione delle parole (es. fine parola vs inizio parola), suggerendo che questo è un compito fondamentale appreso da tutti i componenti.
Corrispondenza Brackets (Dyck):
- La terza componente (PC3) ha identificato testine coinvolte nel matching delle parentesi (Dyck heads), confermando la capacità del metodo di rilevare strutture sintattiche complesse.
Robustezza:
- I risultati sono stati validati su diversi semi di addestramento (seed), mostrando che la struttura funzionale scoperta è stabile e non un artefatto di un singolo training run.
- Le analisi di sensitività hanno dimostrato che le suscettibilità per-token non sono ridondanti con la semplice perdita o le ablation zero, ma catturano informazioni strutturali uniche.

5. Significato e Implicazioni

Questo lavoro rappresenta un passo significativo verso un'interpretabilità teoricamente fondata e scalabile:

Nuova Lente: Offre una prospettiva basata sulla fisica statistica per guardare dentro le reti neurali, trattando i dati come "campi esterni" che rivelano la struttura interna attraverso la loro risposta differenziale.
Superamento delle Limitazioni delle Ablation: A differenza delle ablation studies che possono essere confuse da meccanismi di "auto-riparazione" (self-repair) o effetti non lineari, le suscettibilità misurano correlazioni lineari di primo ordine, fornendo una mappa più chiara delle dipendenze funzionali.
Scalabilità: Sebbene testato su un modello piccolo, il metodo è intrinsecamente scalabile. Gli autori notano che il costo computazionale è paragonabile a quello di altre tecniche di interpretazione come le ablation o gli autoencoder sparsi, rendendo potenzialmente applicabile questo approccio a modelli più grandi (fino a 1.4B parametri e oltre).
Fondamento Matematico: Collega l'interpretabilità alla teoria dell'errore di generalizzazione e alla geometria dello spazio dei parametri (coefficienti di apprendimento locali), fornendo un ponte solido tra la struttura del modello e la complessità dei dati.

In sintesi, il paper propone che la "struttura" di una rete neurale non sia solo una proprietà statica dei pesi, ma emerga dinamicamente da come i suoi componenti reagiscono a variazioni nella distribuzione dei dati, e che misurare queste reazioni (suscettibilità) sia la chiave per decifrare i circuiti interni dei modelli linguistici.