Causal Interpretation of Neural Network Computations with Contribution Decomposition

Each language version is independently generated for its own context, not a direct translation.

🧠 Il "Decodificatore di Contributi": Come capire davvero cosa pensa un'IA

Immagina di avere una cucina piena di cuochi (i neuroni di una rete neurale) che lavorano insieme per preparare un piatto complesso (l'output della rete, ad esempio dire "questo è un panda").

Fino ad oggi, per capire cosa stava succedendo, gli scienziati guardavano solo chi era attivo. "Oh, guarda! Il cuoco numero 42 sta saltando su e giù!" pensavano. Ma questo non ci diceva perché saltava. Forse stava saltando per eccitazione, o forse stava cercando di fermare il fuoco? Guardare solo l'attività è come guardare un'orchestra e contare solo chi sta muovendo l'archetto, senza ascoltare la musica che sta producendo.

Gli autori di questo paper (presentato alla conferenza ICLR 2026) hanno inventato un nuovo metodo chiamato CODEC. Ecco come funziona, spiegato con metafore semplici:

1. Non guardare chi balla, guarda chi spinge la porta 🚪

Il metodo tradizionale guarda le attivazioni (chi si sta muovendo). Il metodo CODEC guarda i contributi (chi sta spingendo la porta per farla aprire o chi la sta spingendo per chiuderla).

L'analogia: Immagina di voler capire chi ha fatto entrare un ospite in una festa.
- Metodo vecchio: Guarda chi è vicino alla porta. Forse c'è un tizio che sta solo aspettando di uscire (attivazione alta, ma contributo nullo o negativo).
- Metodo CODEC: Guarda chi ha effettivamente spinto la maniglia. Se spinge per aprire, è un contributo positivo. Se spinge per chiudere, è un contributo negativo.
- La scoperta: CODEC ha scoperto che nelle reti neurali, i neuroni non si limitano ad "accendersi". Alcuni agiscono come freni, altri come acceleratori. CODEC separa questi due effetti, rivelando che la rete usa un equilibrio complesso di spinte e freni per prendere decisioni.

2. Scomporre il caos in "Modi" ordinati 🧩

Le reti neurali hanno milioni di neuroni che lavorano tutti insieme. È come cercare di capire una conversazione in una folla urlante. CODEC usa una sorta di "filtro magico" (un autoencoder sparsamente codificato) per raggruppare i neuroni in Modi di Contributo.

L'analogia: Immagina che la folla non sia un caos, ma un coro. CODEC non ascolta ogni singola voce, ma identifica i gruppi armonici.
- Invece di dire "Il neurone 10, il 45 e il 99 stanno parlando", CODEC dice: "C'è un gruppo che sta cantando la nota 'Panda' e un altro gruppo che sta cantando la nota 'Tigre'".
- Questi "Modi" sono istruzioni di montaggio: dicono alla rete come combinare i pezzi (gli occhi, le strisce, la coda) per costruire il concetto finale.

3. La magia della "Sparsità" e della "Decorrelazione" ✨

Analizzando le immagini (come quelle di ImageNet), CODEC ha scoperto due cose sorprendenti mentre si sale di livello nella rete (dai primi strati agli ultimi):

Diventano più selettivi: All'inizio, molti neuroni sono attivi. Più si va in profondità, meno neuroni servono per prendere una decisione. È come se all'inizio della ricetta ci fossero 50 ingredienti mescolati, ma alla fine ne servono solo 3 perfetti per il sapore finale.
Si separano i poli: All'inizio, un neurone che "spinge" per un'immagine e uno che "frena" sono spesso collegati. Più in alto nella rete, questi due effetti si separano completamente. È come se la rete avesse sviluppato un sistema di "freni e acceleratori" indipendenti per essere più precisa.

4. Controllare la mente dell'IA 🎮

La parte più potente è che CODEC non serve solo a guardare, ma a controllare.
Gli scienziati hanno usato questi "Modi" per manipolare la rete:

Hanno rimosso solo i neuroni del "Modo Panda" e la rete ha smesso di riconoscere i panda, ma ha continuato a riconoscere le auto perfettamente.
Hanno tenuto solo i neuroni del "Modo Panda" e la rete è diventata un esperto di panda, ignorando tutto il resto.
È come se avessero trovato l'interruttore specifico per ogni concetto nella mente dell'IA.

5. Applicazione alla Biologia: Gli occhi dei rettili 👁️

Non hanno usato CODEC solo sulle macchine. L'hanno applicato a modelli del retina (l'occhio) di vertebrati.
Hanno scoperto che le cellule interne dell'occhio non lavorano da sole, ma in "squadre" (modi) che creano campi recettivi dinamici. È come se l'occhio non fosse una semplice fotocamera, ma un computer che combina segnali per capire il movimento e la forma in modo molto sofisticato. CODEC ha rivelato queste "squadre" nascoste che prima erano invisibili.

In sintesi 🌟

Il paper ci dice che per capire davvero come pensano le reti neurali (sia artificiali che biologiche), non dobbiamo guardare chi è "acceso", ma chi sta facendo cosa.

CODEC è come un traduttore che prende il linguaggio confuso di milioni di neuroni e lo traduce in una serie di istruzioni chiare e sparse: "Usa questo gruppo di neuroni per i bordi, usa quest'altro per le ombre, e combinali così per dire 'è un gatto'".

Questo ci aiuta a:

Capire meglio l'IA (e renderla più sicura).
Controllarla con precisione chirurgica.
Comprendere meglio come funzionano i nostri stessi occhi e cervelli.

È un passo avanti enorme verso il rendere le "scatole nere" dell'intelligenza artificiale trasparenti e comprensibili.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "Causal Interpretation of Neural Network Computations with Contribution Decomposition" (CODEC), presentato come articolo di conferenza all'ICLR 2026.

1. Il Problema

Le reti neurali, sia biologiche che artificiali, eseguono calcoli complessi attraverso operazioni non lineari a cascata. Nonostante il loro ampio utilizzo, manca un quadro standardizzato per comprendere come un'uscita specifica venga generata dall'input attraverso le fasi intermedie.

Limiti degli approcci attuali: La maggior parte dei metodi di interpretabilità si concentra sulle attivazioni interne (pattern di attivazione correlati a concetti interpretabili). Tuttavia, le attivazioni riflettono solo il "campo ricettivo" (sensibilità all'input) e non il "campo proiettivo" (effetto sull'output). Un'unità può essere altamente attiva ma causalmente irrilevante o addirittura inibitoria per l'output finale.
La sfida: È necessario un metodo che non solo identifichi le caratteristiche interne, ma spieghi come le combinazioni di queste caratteristiche agiscano causalmente per costruire l'output, distinguendo tra i "mattoni" computazionali rilevanti e quelli irrilevanti.

2. Metodologia: CODEC (Contribution Decomposition)

Gli autori introducono CODEC, un framework che decompone il comportamento della rete in motivi sparsi di contributi dei neuroni nascosti, utilizzando autoencoder sparsi (SAE). Il processo si articola in quattro fasi principali:

Target di Contribuzione: Definizione di un obiettivo scalare (es. il logit superiore, la somma dei top-k logit, o l'entropia della distribuzione) da analizzare.
Algoritmo di Contribuzione: Calcolo del contributo di ogni neurone nascosto al target per un dato input. Il metodo estende tecniche di attribuzione come gli Integrated Gradients (IG) per misurare l'effetto combinato del campo ricettivo e proiettivo. A differenza delle semplici attivazioni, i contributi possono essere positivi (eccitatori) o negativi (inibitori).
Decomposizione dei Contributi: I contributi calcolati su tutti gli input vengono decomposti in un set di modi computazionali (pattern coordinati di azione dei neuroni) utilizzando un autoencoder sparsi.
- L'autoencoder impara a ricostruire la matrice dei contributi (neuroni $\times$ immagini) utilizzando un dizionario di "modi" sparsi.
- I carichi (loadings) vengono regolarizzati per promuovere la sparsità.
Visualizzazione nello Spazio di Input: Mappatura dei contributi per rivelare quali caratteristiche dell'input guidano i canali chiave di ciascun modo, permettendo una visualizzazione interpretabile dei componenti dell'immagine.

3. Contributi Chiave

Transizione da Attivazione a Contributo: Il paper stabilisce che l'analisi dei contributi è superiore a quella delle attivazioni per l'interpretazione causale, poiché distingue tra unità attive e unità che guidano effettivamente l'output.
Decomposizione in Modi Sparsi: CODEC identifica "modi" (combinazioni di neuroni) che agiscono in modo coordinato, rivelando strutture computazionali che non sono evidenti analizzando i neuroni singolarmente.
Indipendenza dai Dati di Addestramento: Il metodo può essere applicato a modelli feedforward già addestrati senza accesso ai dati di training o alle etichette.
Applicabilità Ibrida: Il framework è stato validato sia su reti neurali artificiali (CNN, Vision Transformers) che su modelli biologici (reti neurali della retina).

4. Risultati Principali

A. Reti Neurali Artificiali (ResNet-50 su ImageNet)

Sparsità e Dimensionalità: I contributi diventano progressivamente più sparsi e ad alta dimensionalità man mano che si sale attraverso gli strati della rete, rispetto alle attivazioni.
Decorrelazione Positiva/Negativa: Una scoperta inaspettata è che, negli strati profondi, i contributi positivi e negativi si decorrelano. Mentre negli strati iniziali un canale tende a contribuire sia positivamente che negativamente (simile ai campi ricettivi centro-periferia), negli strati avanzati i neuroni si specializzano in azioni puramente eccitatorie o inibitorie.
Interpretabilità dei Modi: I modi di contribuzione sono più fortemente correlati alle classi di ImageNet rispetto ai modi derivati dalle attivazioni o ai singoli canali.
Controllo della Rete:
- Ablazione: Rimuovendo solo il 2% dei canali più salienti identificati dai modi di contribuzione, l'accuratezza della classe target crolla drasticamente, mentre le classi "off-target" rimangono stabili.
- Preservazione: Mantenendo solo i canali di un modo specifico, la rete riesce a classificare correttamente solo la classe target, azzerando le altre.
Vision Transformers (ViT): CODEC è stato applicato anche ai ViT, trattando i token come dimensione spaziale. Sebbene le prestazioni di ablazione siano inferiori rispetto alle CNN (a causa della mancanza di bias spaziale equivariante), i modi di contribuzione rivelano ancora informazioni causali non catturate dalle attivazioni.

B. Reti Neurali Biologiche (Retina Vertebrata)

Applicando CODEC a modelli CNN che simulano la retina, gli autori hanno scoperto come i neuroni intercalari (interneurons) del modello agiscano in modo combinatorio.
Campi Ricettivi Dinamici: L'analisi ha mostrato che i campi ricettivi istantanei (IRF) dei gangli retinici variano dinamicamente in base alla combinazione di modi attivi, rivelando strutture che vanno dal classico centro-periferia a risposte orientate o testurizzate.
Ipotesi Sperimentali: Il metodo genera ipotesi verificabili su come i neuroni presinaptici guidino l'attività dei gangli con proprietà di correzione degli errori.

5. Significato e Implicazioni

Il lavoro di CODEC rappresenta un passo avanti significativo nell'interpretabilità delle reti neurali:

Unità di Analisi Causale: Stabilisce i "modi di contribuzione" come un'unità di analisi informativa per comprendere i calcoli non lineari nelle reti gerarchiche.
Ponte tra Biologia e AI: Fornisce un linguaggio comune per analizzare sia le reti artificiali che i sistemi biologici, suggerendo principi generali di elaborazione delle informazioni (es. l'importanza della sparsità e della decorrelazione eccitatoria/inibitoria).
Sicurezza e Controllo: Dimostra che è possibile manipolare e controllare il comportamento delle reti in modo preciso e interpretabile, identificando i percorsi computazionali specifici responsabili di determinate decisioni.
Futuro: Apre la strada alla progettazione di architetture più efficienti basate su questi "mattoni" computazionali e a una comprensione più profonda dell'intelligenza biologica.

In sintesi, CODEC sposta il focus dall'osservazione di cosa i neuroni attivano a come agiscono causalmente per costruire l'output, offrendo una lente più nitida e meccanicistica sul funzionamento delle reti neurali complesse.