What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un super-cervello digitale (chiamato Vision Transformer o ViT) che guarda le foto e dice: "Questo è un elefante!" o "Quella è una zebra!". Il problema è che questo cervello è un po' un "scatola nera": funziona benissimo, ma non ci dice perché ha preso quella decisione. È come se un detective ti dicesse "Ho arrestato il colpevole" senza mostrarti le prove.

Gli scienziati Qin Su e Tie Luo hanno creato una nuova lente magica chiamata BiCAM per aprire questa scatola e vedere cosa succede dentro. Ecco come funziona, spiegato con parole semplici e qualche analogia divertente.

1. Il Problema: Guardare solo la luce, non l'ombra

Fino a oggi, i metodi per spiegare queste intelligenze artificiali guardavano solo le cose che aiutavano la decisione.

L'analogia: Immagina di cercare di capire perché un cuoco ha scelto il cioccolato per una torta. I vecchi metodi ti mostravano solo il cioccolato e dicevano: "Guarda! Il cioccolato è importante!". Ma ignoravano completamente il fatto che il cuoco avesse buttato via la farina o il sale perché non volevano quella torta.
La novità di BiCAM: BiCAM guarda sia il cioccolato (le prove a favore) sia la farina buttata via (le prove contro). Capisce che dire "No, non è farina" è importante quanto dire "Sì, è cioccolato".

2. Come funziona BiCAM: La mappa del "Sì" e del "No"

BiCAM crea una mappa di calore per ogni foto, ma usa due colori:

🔴 Rosso (Supporto): Le parti dell'immagine che dicono "Sì, questo è l'oggetto!". (Es. Le orecchie dell'elefante).
🔵 Blu (Soppressione): Le parti dell'immagine che dicono "No, questo NON è l'oggetto!". (Es. Lo sfondo o un altro animale vicino).

L'esempio dell'elefante e della zebra:
Se chiedi al modello "Dov'è l'elefante?", BiCAM illumina in rosso l'elefante. Ma se chiedi "Dov'è la zebra?", BiCAM illumina in rosso la zebra e, cosa incredibile, illumina in blu l'elefante, dicendoci: "Ehi, quell'elefante qui mi sta confondendo, ma non è la zebra!". I vecchi metodi non riuscivano a mostrare questo contrasto così chiaramente.

3. Il trucco intelligente: Non guardare tutto, guarda il "cuore"

I modelli ViT guardano un'immagine attraverso molti strati (come se guardassero attraverso molte finestre).

Il vecchio modo: Guardava tutte le finestre, anche quelle all'inizio dove si vedono solo linee e bordi confusi. Questo creava "rumore".
Il metodo BiCAM: È come un detective esperto che sa che le risposte importanti si trovano solo negli ultimi strati della mente del modello. Si concentra solo sugli strati finali (dove il modello ha già capito il significato della scena) e ignora il "chiacchiericcio" iniziale. Questo rende la spiegazione più veloce e precisa.

4. Il super-potere: Cacciare i truffatori (Rilevamento degli attacchi)

C'è un altro trucco geniale chiamato PNR (Rapporto Positivo/Negativo).

L'analogia: Immagina che un'immagine normale sia come una conversazione equilibrata: qualcuno dice "Sì" e qualcun altro dice "No" in modo logico.
Il trucco: Gli hacker (che creano immagini ingannevoli per confondere l'AI) spesso rompono questo equilibrio. Fanno sì che l'AI veda cose che non esistono o confonda tutto.
La soluzione: BiCAM calcola questo "equilibrio". Se il rapporto tra "Sì" e "No" è strano o sbilanciato in modo innaturale, BiCAM suona l'allarme: "Attenzione! Questa foto è stata manomessa!". E il meglio? Lo fa senza dover riaddestrare il modello, è come avere un sensore di sicurezza già installato.

5. Perché è così veloce ed efficiente?

Molti metodi precedenti erano lenti e pesanti, come cercare di risolvere un puzzle guardando ogni singolo pezzo uno per uno per ore.
BiCAM è come un fotografo veloce: fa una sola foto (un passaggio in avanti) e una sola verifica (un passaggio indietro) per ottenere la mappa completa. È molto più leggero e veloce dei suoi concorrenti, funzionando bene su diverse macchine fotografiche (diversi tipi di modelli AI).

In sintesi

BiCAM è come dare agli occhi dell'Intelligenza Artificiale la capacità di dire non solo "Cosa vedo", ma anche "Cosa NON vedo e perché lo scarto".

Ci aiuta a fidarci di più delle AI (perché capiamo il loro ragionamento).
Ci protegge dai truffatori digitali (rilevando immagini manipolate).
È veloce, preciso e funziona su molte macchine diverse.

È un passo avanti importante per rendere l'Intelligenza Artificiale meno misteriosa e più trasparente, proprio come un detective che ti mostra tutte le prove, sia quelle a favore che quelle contro, prima di chiudere il caso.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I Vision Transformers (ViT) hanno raggiunto prestazioni all'avanguardia in compiti di riconoscimento visivo (classificazione, rilevamento oggetti, segmentazione). Tuttavia, il loro processo decisionale rimane un "scatola nera" difficile da interpretare.
Le metodologie esistenti per l'interpretabilità dei ViT presentano diverse limitazioni:

Metodi basati sull'attenzione: Spesso soffrono di un eccessivo livellamento (over-smoothing), trattando tutti i token come ugualmente importanti.
Metodi basati su gradienti o Shapley: Richiedono aggregazioni complesse su tutti i livelli o un addestramento computazionalmente oneroso.
Limitazione fondamentale: La maggior parte dei metodi basati su CAM (Class Activation Mapping) scarta i valori negativi, focalizzandosi solo sulle evidenze "supportive" (positive). Questo ignora il ruolo cruciale delle evidenze "soppressive" (negative) che il modello utilizza per rifiutare classi alternative, limitando la completezza della spiegazione.

2. Metodologia: BiCAM

Gli autori propongono BiCAM (Bidirectional Class Activation Mapping), un metodo che cattura sia i contributi di supporto che quelli di soppressione, preservando i segnali con segno (positivi e negativi).

A. Aggregazione Strategica dei Livelli

Invece di aggregare i segnali di interpretabilità su tutti i livelli della rete (come fanno molti metodi precedenti), BiCAM adotta una strategia selettiva:

Si concentra esclusivamente sui livelli finali del Transformer (gli ultimi $\ell$ blocchi).
Motivazione: Le informazioni discriminative per la classe si concentrano negli strati profondi, mentre gli strati iniziali contengono spesso rumore strutturale a basso livello.
Impostazione: Viene selezionato $\ell = 2L/3$ (dove $L$ è il numero totale di livelli), ottenendo un buon compromesso tra filtraggio del rumore e cattura dei segnali semantici globali.

B. Meccanismo di Attribuzione Bidirezionale

BiCAM calcola le mappe di attribuzione in tre passaggi, senza applicare funzioni di attivazione come ReLU che cancellerebbero i valori negativi:

Estrazione: Si estraggono le mappe di attenzione ( $A$ ), le proiezioni dei valori ( $V$ ) e i gradienti della classe target rispetto al token [CLS] ( $\partial y_c / \partial o_{cls}$ ) dagli strati selezionati.
Calcolo dei Gradienti: Si calcolano i gradienti specifici per la classe rispetto all'output del token [CLS].
Costruzione della Mappa: Le mappe di attribuzione per livello sono ottenute combinando valori, gradienti e attenzione tramite moltiplicazione elementare. Le mappe dei diversi livelli sono poi sommate.
- Punto chiave: Non viene applicato alcun clipping o ReLU. I valori negativi sono preservati, indicando le regioni che, se perturbate, ridurrebbero il punteggio della classe (evidenza soppressiva).

C. Positive-to-Negative Ratio (PNR)

Per sfruttare le attribuzioni bidirezionali, gli autori introducono una metrica semplice chiamata PNR:
$PNR = \frac{\sum \text{ReLU}(M_i)}{\sum \text{ReLU}(-M_i) + \epsilon}$
Dove $M_i$ è l'attribuzione del patch $i$ .

Idea: I campioni "puliti" tendono ad avere un equilibrio strutturato tra aree positive (oggetto target) e negative (sfondo/oggetti concorrenti). Gli esempi avversari perturbano questo equilibrio, creando risposte disperse o esagerate.
Utilizzo: La differenza di PNR tra un esempio avversario e uno pulito ( $\Delta PNR$ ) funge da segnale per il rilevamento di attacchi avversari senza necessità di riaddestramento.

3. Contributi Chiave

BiCAM: Un metodo di attribuzione bidirezionale che genera mappe contrastive (supportive in rosso, soppressive in blu) in un singolo passaggio forward-backward, applicabile a scene con uno o più oggetti.
PNR: Una metrica leggera derivata da BiCAM per il rilevamento interpretabile di esempi avversari.
Strategia di Aggregazione: Una strategia principiale che focalizza l'analisi sugli strati profondi del Transformer, migliorando l'efficacia rispetto all'aggregazione su tutti i livelli.
Generalizzazione: Il metodo è stato validato su diverse architetture ViT (DeiT, Swin) e dataset (ImageNet, VOC, COCO).

4. Risultati Sperimentali

Il metodo è stato valutato su ImageNet, VOC 2012 e COCO 2017, confrontandosi con metodi come Attention Rollout, LRP-based CAM, AG-CAM e ViT-Shapley.

Localizzazione (IoU, F1, Precision, Recall):
- Su ImageNet, BiCAM ottiene il miglior IoU (0.5419) e F1 (0.6624), superando tutti i baselines.
- Su VOC e COCO, la versione "Positiva" di BiCAM supera i baselines in tutte le metriche. La versione "Negativa" (che mappa le regioni soppressive) mostra prestazioni competitive, dimostrando che le mappe negative catturano regioni semanticamente significative (oggetti concorrenti) e non solo rumore.
Fedeltà (Faithfulness):
- Misurata tramite la rimozione iterativa delle patch (MIF - Most Important Feature e LIF - Least Important Feature).
- BiCAM mostra la più alta fedeltà (es. 0.3824 su ImageNet), indicando che le attribuzioni corrispondono meglio al comportamento reale del modello rispetto ai metodi esistenti.
Rilevamento Avversario:
- Utilizzando $\Delta PNR$ , il metodo rileva attacchi come PGD, C&W e MI-FGSM con un'AUROC media di 0.796 e AUPR di 0.763, senza richiedere alcun addestramento aggiuntivo.
Efficienza Computazionale:
- BiCAM è 8.4 volte più veloce dell'LRP (16ms/img vs 134ms/img) e richiede una memoria GPU minima (0.24 MB/img), rendendolo adatto a scenari reali.

5. Significato e Conclusioni

Il lavoro dimostra che modellare sia le evidenze di supporto che quelle di soppressione è fondamentale per interpretare i modelli basati su Transformer.

Interpretabilità Completa: BiCAM fornisce spiegazioni più ricche e contrastive, mostrando non solo cosa il modello vede, ma anche cosa esclude attivamente.
Sicurezza: La capacità di rilevare attacchi avversari tramite l'analisi dell'equilibrio delle attribuzioni (PNR) offre uno strumento leggero e efficace per la sicurezza dell'IA.
Impatto Futuro: I risultati suggeriscono che l'attribuzione bidirezionale è una dimensione sottoutilizzata nell'XAI (Explainable AI) che può migliorare la fiducia nei sistemi di visione artificiale ad alto rischio.

In sintesi, BiCAM supera i limiti dei metodi tradizionali preservando i segnali negativi, offrendo allo stesso tempo un meccanismo efficiente per la diagnostica del modello e la sicurezza contro le perturbazioni.