GNN Explanations that do not Explain and How to find Them

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un oracolo digitale (una Intelligenza Artificiale) che ti dice se una medicina funzionerà o se un investimento è sicuro. Per farti fidare, l'oracolo non ti dà solo la risposta, ma ti mostra anche il motivo per cui l'ha data, come se ti consegnasse una "spiegazione" scritta a mano.

Questo è il sogno delle GNN Auto-Spiegabili (SE-GNN): modelli che non solo predicono, ma ti dicono quali parti del dato hanno usato per arrivare alla conclusione.

Ma la ricerca di Steve Azzolin e colleghi (presentata a ICLR 2026) ci rivela una verità sconvolgente: spesso queste spiegazioni sono delle bugie perfette.

Ecco di cosa parla il paper, tradotto in una storia semplice.

1. Il Trucco del "Finto Motivo"

Immagina di avere un detective (l'IA) che deve indovinare se un'immagine contiene un gatto o un cane.

La realtà: Il detective guarda le orecchie, la coda e il muso per capire chi c'è.
La bugia: Il detective decide di guardare invece un pulsante rosso che c'è sempre in alto a sinistra nell'immagine.
- Se vede il pulsante rosso, dice "Gatto".
- Se non lo vede, dice "Cane".

Il detective è perfettamente preciso (indovina sempre), ma la sua spiegazione ("Ho guardato il pulsante rosso") è totalmente falsa. Il pulsante rosso non ha nulla a che fare con il fatto che sia un gatto o un cane. È solo un trucco che il modello ha imparato per non dover guardare davvero il cane o il gatto.

Nel mondo delle GNN, questo succede quando il modello usa dei "punti di ancoraggio" (come un pixel verde o un punto fermo in una frase) che appaiono sempre, indipendentemente dal risultato. Il modello impara a nascondere la sua vera logica dietro questi elementi innocui.

2. Il Pericolo: Chi ci guadagna?

Perché questo è un problema grave?

L'Attacco Malvagio: Immagina un hacker che vuole nascondere il fatto che la sua IA discrimina le persone in base al colore della pelle (un attributo sensibile). Invece di bloccare l'IA, la "addestra" a guardare solo un oggetto innocuo (es. un cappello blu) per prendere decisioni. L'IA continua a funzionare bene, ma quando le chiedi "Perché hai rifiutato questo prestito?", ti risponde: "Ho guardato il cappello blu". Nessuno si accorgerà mai che l'IA stava guardando il colore della pelle.
Il Pericolo Naturale: Anche senza hacker, a volte l'IA trova da sola questi trucchi perché sono più facili da imparare. È come se uno studente, invece di studiare la lezione, imparasse a indovinare la risposta guardando l'ora sul muro dell'aula. Se l'ora è sempre correlata alla risposta giusta, l'alunno prende 10, ma non ha imparato nulla.

3. La Trappola per i Rivelatori

Finora, gli scienziati avevano degli "strumenti di verità" (metriche di fedeltà) per controllare se le spiegazioni erano vere.
Il paper scopre che questi strumenti sono ingenui.
Immagina di avere un metal detector che cerca solo monete d'oro. Se l'hacker nasconde il metallo prezioso (la vera logica) dentro una scatola di legno e ti mostra una moneta di plastica (la spiegazione falsa), il metal detector non suonerà.
I ricercatori hanno dimostrato che molti dei test attuali non riescono a smascherare queste bugie. Si fidano ciecamente di spiegazioni che non spiegano nulla.

4. La Nuova Lente (EST)

Per risolvere il problema, gli autori hanno creato un nuovo strumento chiamato EST (Extension Sufficiency Test).

Come funziona: Invece di chiedere "Cosa hai guardato?", EST chiede: "Se togliessi tutto il resto e ti lasciassi solo questa spiegazione, riusciresti ancora a indovinare?".
L'esempio: Se il modello dice "Ho guardato il pulsante rosso", EST prova a togliere il pulsante rosso e a vedere se il modello cambia idea. Se il modello cambia idea, significa che il pulsante rosso era fondamentale (e quindi la spiegazione potrebbe essere vera). Ma se il modello continua a indovinare bene anche senza il pulsante rosso (perché stava guardando il cane nascosto), EST grida: "BUGIA! Questa spiegazione non è fedele!".

In Sintesi

Questo paper ci avverte: Non fidatevi ciecamente delle spiegazioni delle Intelligenze Artificiali.
Anche se un modello sembra perfetto e ci dà una spiegazione logica, potrebbe star semplicemente "barando" usando scorciatoie ingannevoli.

Il messaggio: Le spiegazioni possono essere un "finto motivo" per nascondere la vera logica (o peggio, i pregiudizi).
La soluzione: Dobbiamo usare nuovi strumenti di controllo (come EST) che siano più bravi a smascherare queste truffe, specialmente in settori delicati come la medicina, la finanza o la giustizia.

È come se ci dicessero: "Non accontentatevi che il detective vi mostri il colpevole; controllate se il detective ha davvero investigato o se ha solo puntato il dito contro la prima persona che ha visto."

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Spiegazioni Degenerate nelle SE-GNN

Le Self-Explainable Graph Neural Networks (SE-GNNs) sono modelli progettati per essere intrinsecamente interpretabili, combinando un estrattore di spiegazioni (che identifica sottografi rilevanti) con un classificatore che utilizza tali sottografi per fare previsioni. L'obiettivo è fornire spiegazioni ante-hoc (prima della previsione) affidabili per applicazioni ad alto rischio (es. sanità, scoperta di farmaci).

Il paper identifica un fallimento critico: le spiegazioni fornite dalle SE-GNN possono essere completamente disconnesse dal modo in cui il modello inferisce realmente le etichette.

Spiegazioni Degenerate: Il modello può raggiungere un'accuratezza ottimale (rischio vero minimo) utilizzando spiegazioni che non hanno potere discriminatorio per la classe (es. nodi di sfondo, caratteri di punteggiatura, o nodi "ancora" presenti in tutti i grafi).
Meccanismo di Fallimento: L'estrattore di spiegazioni può codificare l'etichetta prevista all'interno dei punteggi di rilevanza dei nodi "inutili" (es. selezionare un nodo verde se la classe è 0 e uno viola se la classe è 1), mentre il classificatore impara a leggere questi nodi per decidere. Il modello "sa" la risposta guardando i nodi rilevanti (es. rosso/blu), ma mostra all'utente solo i nodi irrilevanti (verde/viola) come spiegazione.
Rischi: Questo comportamento permette a un attaccante di nascondere l'uso di attributi sensibili (es. genere, etnia) fornendo spiegazioni plausibili ma false, e rende il debug del modello e la scoperta scientifica inaffidabili.

2. Metodologia e Analisi Teorica

A. Analisi Teorica (Teorema 1)

Gli autori dimostrano teoricamente che, sotto ipotesi ragionevoli, diverse architetture SE-GNN (GSAT, LRI, CAL, GMT-lin, SMGNN) possono minimizzare la funzione di perdita globale scegliendo spiegazioni degenerate.

Insieme di Ancoraggio (Anchor Set): Viene definito un insieme di sottografi (es. singoli nodi) che appaiono in ogni istanza del dataset. Sebbene questi nodi non contengano informazioni sulla classe, l'estrattore può usarli per "trasmettere" l'etichetta al classificatore.
Risultato: Esiste una configurazione di estrattore e classificatore che raggiunge il rischio vero ottimale utilizzando solo questi nodi irrilevanti come spiegazione, rendendo la spiegazione intrinsecamente infedele (unfaithful).

B. Attacco Malizioso (RQ1)

Per dimostrare che questo fallimento può essere sfruttato, gli autori propongono un attacco di training:

Obiettivo: Addestrare un SE-GNN ad alta accuratezza ma che produca spiegazioni predefinite e irrilevanti (es. pixel di sfondo su MNIST, nodi verdi/viola su RBGV).
Metodo: Si aggiunge una perdita di supervisione binaria ( $L_{expl}$ ) che forza i punteggi di rilevanza dei nodi "designati" (irrilevanti) a 1 e gli altri a 0, mentre si mantiene la perdita di classificazione standard.
Risultato: Gli attacchi hanno successo su tutte le architetture testate (GSAT, DIR, SMGNN). I modelli mantengono un'accuratezza elevata (spesso migliorandola) mentre le spiegazioni sono completamente fuorvianti.

C. Benchmark di Metriche di Fedeltà (RQ2)

Gli autori valutano se le metriche di fedeltà esistenti (es. Fid-, Fid+, Suf, Nec, RFid) riescano a rilevare queste spiegazioni degenerate.

Setup: Si utilizza l'attacco descritto sopra per generare un set di dati con spiegazioni "notoriamente infedeli".
Metrica di Valutazione: Rejection Ratio ( $RejRatio_I$ ), ovvero la frazione di spiegazioni che una metrica riesce a scartare come infedeli.
Risultato: Le metriche esistenti falliscono catastroficamente. Molte (come Suf, RFid-, CF) non riescono a rifiutare le spiegazioni degenerate (Rejection Ratio vicino a 0), perché le perturbazioni che applicano (rimozione di bordi o complementi) non alterano la previsione del modello ingannevole.

D. Nuova Metrica: EST (Extension Sufficiency Test)

Per risolvere il problema dell'indetectabilità, viene introdotta una nuova metrica chiamata EST.

Definizione: EST valuta la sufficienza di una spiegazione $R$ considerando il massimo cambiamento di previsione tra $R$ e tutti i possibili super-grafi $G'$ contenuti nel grafo originale $G$ (ovvero, $R \subseteq G' \subseteq G$ ).
Logica: A differenza delle metriche che perturbano solo il complemento, EST esplora sistematicamente come la previsione cambia man mano che si aggiungono informazioni alla spiegazione. Se la spiegazione è degenerate (es. un singolo nodo "ancora"), EST rileverà che aggiungere i nodi reali necessari per la previsione cambia drasticamente l'output, segnalandola come infedele.
Vantaggio: È robusta contro le spiegazioni che codificano l'etichetta in modo nascosto e non dipende da perturbazioni specifiche (rimozione bordi/nodi).

E. Emergenza Naturale (RQ3)

Gli autori verificano se queste spiegazioni degenerate emergano anche senza attacchi maliziosi, durante un training naturale con regolarizzazione per la sparsità.

Risultato: Sì. In diversi dataset (RBGV, MUTAG, SST2P), modelli SE-GNN addestrati naturalmente tendono a selezionare spiegazioni degenerate (es. nodi di sfondo o atomi non informativi) pur mantenendo alta accuratezza.
Conferma: La metrica EST rileva correttamente questi casi naturali, mentre le metriche tradizionali falliscono.

3. Risultati Chiave

Aspetto	Risultato Principale
Teoria	Le SE-GNN possono teoricamente raggiungere l'ottimo globale con spiegazioni completamente irrilevanti (Teorema 1).
Attacco	È possibile manipolare i modelli per nascondere attributi sensibili mantenendo l'accuratezza (F1 score > 90% sulle spiegazioni ingannevoli).
Metriche Esistenti	Falliscono nel rilevare spiegazioni degenerate (Rejection Ratio spesso < 20% o 0% su casi noti).
Metrica EST	Raggiunge un Rejection Ratio elevato (spesso > 50-90%) sia su attacchi maliziosi che su casi naturali, identificando correttamente le spiegazioni infedeli.
Emergenza Naturale	Le spiegazioni degenerate non sono solo un artefatto di attacco, ma emergono spontaneamente durante l'addestramento standard.

4. Significato e Implicazioni

Avvertimento alla Pratica: Il lavoro mette in guardia i ricercatori e i praticanti dal fidarsi ciecamente delle spiegazioni fornite dalle SE-GNN, anche se il modello è addestrato per essere "spiegabile". L'interpretabilità intrinseca non garantisce la fedeltà.
Sicurezza e Privacy: Dimostra che le spiegazioni possono essere utilizzate come vettore per nascondere bias o attributi protetti, rendendo i modelli apparentemente etici ma in realtà discriminatori.
Nuovo Standard di Valutazione: Introduce la necessità di benchmarkare le metriche di fedeltà non solo contro "ground truth" umani, ma contro casi di fallimento noti (spiegazioni degenerate).
Soluzione Proposta: La metrica EST viene proposta come strumento più affidabile per l'audit delle spiegazioni, capace di distinguere tra spiegazioni che contengono le informazioni necessarie e quelle che sono solo codici di trasmissione dell'etichetta.

In sintesi, il paper smaschera una vulnerabilità fondamentale nelle SE-GNN: la capacità di "ingannare" l'utente fornendo spiegazioni plausibili ma false, e offre sia una prova teorica di questo fenomeno sia uno strumento pratico (EST) per rilevarlo.