Learning Concept Bottleneck Models from Mechanistic Explanations

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un genio della lampada (il tuo modello di Intelligenza Artificiale) che è bravissimo a risolvere problemi complessi, come riconoscere un uccello raro o diagnosticare una malattia dalla pelle. Il problema è che questo genio è muto: ti dà la risposta giusta, ma non ti dice perché l'ha data. È una "scatola nera".

Per rendere il genio più trasparente, gli scienziati hanno inventato i Concept Bottleneck Models (CBM). L'idea è semplice: invece di far saltare direttamente dalla domanda alla risposta, si obbliga il genio a passare per una "stanza di controllo" dove deve prima elencare dei concetti semplici (es. "ha le piume blu", "ha il becco lungo") e solo dopo dare la risposta finale.

Il problema dei metodi attuali? Indovinare i concetti.
Gli scienziati provano a dire al genio: "Ehi, controlla se c'è un becco lungo!". Ma magari il genio non ha mai imparato a vedere i becchi, o forse il concetto "becco lungo" non è utile per distinguere quell'uccello specifico. È come chiedere a un chef di cucinare un piatto usando solo ingredienti che pensi lui abbia, ma che in realtà non sa usare o che non servono. Il risultato è che il modello diventa meno preciso e le spiegazioni sono spesso sbagliate.

La Soluzione: M-CBM (Il "Meccanico" che smonta il motore)

Gli autori di questo paper propongono un approccio rivoluzionario chiamato M-CBM. Invece di indovinare quali concetti usare, chiedono al genio: "Di cosa sei fatto?".

Ecco come funziona, passo dopo passo, con un'analogia semplice:

1. Smontare il motore (Estrazione dei concetti)

Immagina che il modello di IA sia un motore di Ferrari molto complesso. Di solito, noi non sappiamo come funziona internamente.
Gli autori usano una tecnologia chiamata Sparse Autoencoder (SAE). Pensa a questo come a un meccanico super-preciso che smonta il motore pezzo per pezzo. Invece di vedere solo il motore intero, il meccanico isola ogni singola vite, ogni molla e ogni ingranaggio che il motore usa realmente per funzionare.
Questi "pezzi" sono i concetti appresi dal modello stesso. Non sono inventati dall'uomo, ma sono ciò che il modello ha davvero imparato a riconoscere (es. "una macchia scura", "una striscia luminosa").

2. Dare un nome ai pezzi (Naming con l'IA)

Ora che abbiamo isolato migliaia di "ingranaggi", dobbiamo capire cosa fanno. Uno potrebbe essere "piume rosse", un altro "occhi neri".
Per farlo, usano un Multimodal LLM (un'intelligenza artificiale molto avanzata che vede e legge).

L'analogia: Immagina di mostrare al meccanico 10 foto dove quel singolo "ingranaggio" si attiva (si illumina) e 10 dove non si attiva. Poi chiedi all'IA: "Cosa sta guardando questo ingranaggio?". L'IA risponde: "Ah, sta guardando le piume rosse!".
In questo modo, ogni "ingranaggio" misterioso riceve un nome umano comprensibile.

3. Etichettare le foto (Annotazione)

Ora che sappiamo che l'ingranaggio A significa "piume rosse", dobbiamo insegnare al modello a usarlo.
L'IA va a guardare un sottoinsieme di foto e dice: "In questa foto c'è 'piume rosse', in questa no". Questo crea un manuale di istruzioni pulito.

4. Costruire il nuovo modello (Il CBM)

Infine, costruiscono un nuovo modello che funziona così:

Guarda la foto.
Usa il motore originale per trovare gli "ingranaggi" (i concetti) attivi.
Chiede all'IA: "Quanti ingranaggi 'piume rosse' ci sono?".
Solo dopo, decide la risposta finale basandosi solo su questi ingranaggi.

Perché è meglio? (La metafora del "Furto di informazioni")

Nei vecchi metodi, c'era un problema chiamato fuga di informazioni (leakage).
Immagina di chiedere a uno studente di fare un esame di storia.

Metodo vecchio: Gli dici: "Rispondi solo usando i concetti 'Guerra', 'Re', 'Soldati'". Ma se lo studente è furbo, capisce che la domanda è sulla "Seconda Guerra Mondiale" e usa quelle parole come scusa per saltare direttamente alla risposta giusta, senza davvero pensare ai concetti. Il risultato? La spiegazione è falsa.
Metodo M-CBM: Gli studenti (i concetti) sono stati estratti direttamente dalla mente dello studente (il modello). Sono i concetti che lui usa davvero per pensare. Quindi, quando dice "Vedo piume rosse", lo dice davvero. Non può barare perché i concetti sono la sua stessa struttura mentale.

Il risultato

Il paper dimostra che questo nuovo metodo:

È più preciso: Raggiunge quasi la stessa accuratezza del modello "muto" originale.
È più onesto: Le spiegazioni sono vere. Se il modello dice "è un'aquila perché ha un becco adunco", è perché ha davvero visto un becco adunco.
È controllabile: Gli autori introducono una metrica chiamata NCC (Numero di Concetti Contribuenti). È come dire: "Ok, per decidere se è un'aquila, devi usare solo i 5 concetti più importanti, non tutti i 1000". Questo rende la spiegazione breve e chiara, senza perdere troppa precisione.

In sintesi

Invece di costringere un'IA a parlare un linguaggio che non conosce (concetti umani predefiniti), M-CBM ascolta il linguaggio segreto che l'IA usa già, lo traduce in parole umane e lo usa per prendere decisioni. È come se invece di insegnare a un alieno a parlare italiano con un dizionario sbagliato, gli chiedessimo: "Come spiegheresti tu il concetto di 'amore' nella tua lingua?" e poi traducessimo la sua risposta. Il risultato è molto più autentico e affidabile.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Concept Bottleneck Models (CBM) sono un approccio di interpretabilità ante-hoc che mira a spiegare le decisioni di un modello AI prevedendo prima un insieme di concetti interpretabili (es. "strisce", "piume") e poi utilizzando questi concetti per la classificazione finale. Tuttavia, gli approcci attuali presentano limiti significativi:

Definizione a priori dei concetti: I concetti sono solitamente specificati da esperti umani, estratti da grafi della conoscenza, o generati da LLM. Spesso questi concetti non hanno sufficiente potere predittivo per il compito specifico o non sono apprendibili dai dati disponibili.
Sottoperformance: Quando si controlla la "fuga di informazioni" (information leakage), i CBM dello stato dell'arte tendono a performare significativamente peggio rispetto ai loro equivalenti "black-box".
Fuga di informazioni (Leakage): Il livello di bottleneck può codificare involontariamente pattern nascosti legati alla classe target, permettendo al classificatore finale di aggirare la semantica dei concetti e raggiungere alta accuratezza senza vera interpretabilità.
Limiti delle soluzioni esistenti: Metodi che usano LLM per generare concetti (es. VLG-CBM) o modelli CLIP (es. DN-CBM) possono introdurre concetti non visivi o non pertinenti, e spesso richiedono componenti ininterpretabili nel bottleneck per recuperare l'accuratezza.

2. Metodologia: M-CBM (Mechanistic CBM)

Gli autori propongono una nuova pipeline, M-CBM, che costruisce il bottleneck direttamente dai concetti appresi dal modello black-box stesso, sfruttando l'interpretabilità meccanicistica. La pipeline si articola in quattro fasi principali (illustrate nella Figura 1 del paper):

Estrazione dei Concetti (Concept Extraction):
- Si parte da un backbone black-box già addestrato.
- Si estraggono le attivazioni dei neuroni e si utilizza un Sparse Autoencoder (SAE) per disaccoppiare le caratteristiche in una rappresentazione sparsa e over-complete.
- L'SAE apprende un dizionario di feature monosemantiche (ogni neurone rappresenta un concetto distinto).
- Viene effettuata una fase di pruning per rimuovere i neuroni "morti" o quasi morti, garantendo che solo i neuroni con un contributo significativo alle prestazioni vengano mantenuti.
Assegnazione dei Nomi (Concept Naming):
- Per ogni neurone SAE residuo, si selezionano esempi di immagini che lo attivano fortemente e altri che non lo attivano.
- Si utilizzano mappe di salienza per evidenziare le regioni spaziali rilevanti.
- Un Multimodal Large Language Model (MLLM), specificamente GPT-4.1, viene promptato con questi esempi (attivi e non attivi) per generare un nome descrittivo e conciso per il concetto (es. "persona che indossa un casco").
- Viene eseguita una fase di fusione per eliminare concetti semanticamente duplicati.
Annotazione del Dataset (Dataset Annotation):
- Poiché il nome è solo un'ipotesi, si procede ad annotare un sottoinsieme del dataset (circa 1000 campioni per concetto) per verificare la presenza/assenza del concetto.
- L'MLLM annota batch di 25 immagini alla volta, indicando se il concetto è presente (1), assente (0) o non annotato (-1).
- Il processo è bilanciato per evitare bias verso classi specifiche.
Addestramento del Concept Bottleneck Model:
- Si addestra un CBM sequenziale:
  - Un backbone congelato estrae le feature.
  - Un Concept Bottleneck Layer (CBL) predice la presenza dei $K$ concetti nominati (usando una loss BCE mascherata per gestire le annotazioni mancanti).
  - Un classificatore lineare sparso predice la classe finale dai logit dei concetti.
- Per controllare la fuga di informazioni e garantire spiegazioni concise, si utilizza un classificatore con regolarizzazione Elastic-Net.

3. Contributi Chiave

Pipeline M-CBM: Un metodo innovativo che deriva i concetti direttamente dalle rappresentazioni interne del modello (tramite SAE) invece di affidarsi a definizioni esterne o generative casuali. Questo garantisce che i concetti siano intrinsecamente apprendibili e predittivi.
NCC (Number of Contributing Concepts): Introduzione di una nuova metrica di sparsità a livello decisionale. A differenza della metrica NEC (Number of Effective Concepts) che conta i pesi non nulli, l'NCC misura quanti concetti sono necessari per spiegare una frazione $\tau$ (es. 95%) della decisione finale, considerando sia l'attivazione del concetto che il suo peso. Questo permette un controllo più fine del trade-off tra accuratezza e interpretabilità senza imporre un limite rigido al vocabolario dei concetti.
Validazione Sperimentale: Dimostrazione che i concetti estratti meccanicisticamente sono superiori a quelli generati da LLM o CLIP in termini di coerenza interna e capacità predittiva.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su tre dataset: CUB (uccelli), ISIC2018 (lesioni dermatologiche) e ImageNet.

Accuratezza: M-CBM supera costantemente gli stati dell'arte (LF-CBM, VLG-CBM, DN-CBM) a parità di sparsità (NCC). Ad esempio, su CUB con NCC=5, M-CBM raggiunge il 73.70% di accuratezza contro il 69.12% di VLG-CBMCA e il 58.08% di LF-CBM.
Gestione della Leakage: Quando si usano concetti casuali (random words), i metodi basati su annotazione condizionata alla classe (come VLG-CBM originale) raggiungono quasi l'accuratezza del black-box anche con NCC molto basso, confermando la fuga di informazioni. M-CBM e VLG-CBMCA mostrano invece il trade-off atteso tra accuratezza e interpretabilità.
Predizione dei Concetti: M-CBM ottiene ROC-AUC significativamente superiori nella predizione dei concetti stessi (es. 90.04% su CUB vs 62.03% di VLG-CBMCA), dimostrando che i concetti estratti sono più coerenti con la realtà visiva rispetto a quelli generati da LLM.
Spiegazioni: Le spiegazioni generate sono concise e semanticamente sensate (es. per "Modem" vs "Radio", il modello distingue correttamente tra luci indicatori e manopole).

5. Significato e Limiti

Significato:
Il lavoro dimostra che l'interpretabilità non deve essere imposta dall'esterno, ma può essere "estratta" dal modello stesso. Sfruttando l'interpretabilità meccanicistica (SAE), è possibile creare CBM che sono sia accurati che interpretabili, superando il paradosso per cui i modelli interpretabili sono spesso meno performanti. L'introduzione dell'NCC offre un nuovo standard per valutare la qualità delle spiegazioni in modo più realistico rispetto alla semplice sparsità dei pesi.

Limiti:

Costo Computazionale: L'uso di MLLM (GPT-4.1) per la nomina e l'annotazione comporta costi significativi e tempi di esecuzione lunghi, specialmente per dataset grandi come ImageNet.
Qualità delle Annotazioni: La qualità finale dipende dalla capacità dell'MLLM di interpretare correttamente le attivazioni dell'SAE. Sebbene l'approccio sia robusto, non esiste un modo sistematico per garantire che i concetti appresi non siano correlazioni spurie (un problema comune a tutti i CBM).
Non Plug-and-Play: Richiede supervisione per assicurarsi che i concetti estratti siano effettivamente interpretabili e che l'MLLM stia fornendo annotazioni di alta qualità.

In sintesi, M-CBM rappresenta un passo avanti verso modelli AI che non solo prendono decisioni accurate, ma lo fanno attraverso processi decisionali che riflettono fedelmente le loro rappresentazioni interne, rendendo l'interpretabilità una proprietà intrinseca e non un'aggiunta post-hoc.