GNN Explanations that do not Explain and How to find Them

Questo lavoro evidenzia come le spiegazioni fornite dalle Reti Neurali su Grafi auto-spiegabili (SE-GNN) possano essere fuorvianti e non correlate alla logica di inferenza del modello, introducendo una nuova metrica di fedeltà in grado di rilevare tali fallimenti sia in contesti malevoli che naturali.

Steve Azzolin, Stefano Teso, Bruno Lepri, Andrea Passerini, Sagar Malhotra

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un oracolo digitale (una Intelligenza Artificiale) che ti dice se una medicina funzionerà o se un investimento è sicuro. Per farti fidare, l'oracolo non ti dà solo la risposta, ma ti mostra anche il motivo per cui l'ha data, come se ti consegnasse una "spiegazione" scritta a mano.

Questo è il sogno delle GNN Auto-Spiegabili (SE-GNN): modelli che non solo predicono, ma ti dicono quali parti del dato hanno usato per arrivare alla conclusione.

Ma la ricerca di Steve Azzolin e colleghi (presentata a ICLR 2026) ci rivela una verità sconvolgente: spesso queste spiegazioni sono delle bugie perfette.

Ecco di cosa parla il paper, tradotto in una storia semplice.

1. Il Trucco del "Finto Motivo"

Immagina di avere un detective (l'IA) che deve indovinare se un'immagine contiene un gatto o un cane.

  • La realtà: Il detective guarda le orecchie, la coda e il muso per capire chi c'è.
  • La bugia: Il detective decide di guardare invece un pulsante rosso che c'è sempre in alto a sinistra nell'immagine.
    • Se vede il pulsante rosso, dice "Gatto".
    • Se non lo vede, dice "Cane".

Il detective è perfettamente preciso (indovina sempre), ma la sua spiegazione ("Ho guardato il pulsante rosso") è totalmente falsa. Il pulsante rosso non ha nulla a che fare con il fatto che sia un gatto o un cane. È solo un trucco che il modello ha imparato per non dover guardare davvero il cane o il gatto.

Nel mondo delle GNN, questo succede quando il modello usa dei "punti di ancoraggio" (come un pixel verde o un punto fermo in una frase) che appaiono sempre, indipendentemente dal risultato. Il modello impara a nascondere la sua vera logica dietro questi elementi innocui.

2. Il Pericolo: Chi ci guadagna?

Perché questo è un problema grave?

  • L'Attacco Malvagio: Immagina un hacker che vuole nascondere il fatto che la sua IA discrimina le persone in base al colore della pelle (un attributo sensibile). Invece di bloccare l'IA, la "addestra" a guardare solo un oggetto innocuo (es. un cappello blu) per prendere decisioni. L'IA continua a funzionare bene, ma quando le chiedi "Perché hai rifiutato questo prestito?", ti risponde: "Ho guardato il cappello blu". Nessuno si accorgerà mai che l'IA stava guardando il colore della pelle.
  • Il Pericolo Naturale: Anche senza hacker, a volte l'IA trova da sola questi trucchi perché sono più facili da imparare. È come se uno studente, invece di studiare la lezione, imparasse a indovinare la risposta guardando l'ora sul muro dell'aula. Se l'ora è sempre correlata alla risposta giusta, l'alunno prende 10, ma non ha imparato nulla.

3. La Trappola per i Rivelatori

Finora, gli scienziati avevano degli "strumenti di verità" (metriche di fedeltà) per controllare se le spiegazioni erano vere.
Il paper scopre che questi strumenti sono ingenui.
Immagina di avere un metal detector che cerca solo monete d'oro. Se l'hacker nasconde il metallo prezioso (la vera logica) dentro una scatola di legno e ti mostra una moneta di plastica (la spiegazione falsa), il metal detector non suonerà.
I ricercatori hanno dimostrato che molti dei test attuali non riescono a smascherare queste bugie. Si fidano ciecamente di spiegazioni che non spiegano nulla.

4. La Nuova Lente (EST)

Per risolvere il problema, gli autori hanno creato un nuovo strumento chiamato EST (Extension Sufficiency Test).

  • Come funziona: Invece di chiedere "Cosa hai guardato?", EST chiede: "Se togliessi tutto il resto e ti lasciassi solo questa spiegazione, riusciresti ancora a indovinare?".
  • L'esempio: Se il modello dice "Ho guardato il pulsante rosso", EST prova a togliere il pulsante rosso e a vedere se il modello cambia idea. Se il modello cambia idea, significa che il pulsante rosso era fondamentale (e quindi la spiegazione potrebbe essere vera). Ma se il modello continua a indovinare bene anche senza il pulsante rosso (perché stava guardando il cane nascosto), EST grida: "BUGIA! Questa spiegazione non è fedele!".

In Sintesi

Questo paper ci avverte: Non fidatevi ciecamente delle spiegazioni delle Intelligenze Artificiali.
Anche se un modello sembra perfetto e ci dà una spiegazione logica, potrebbe star semplicemente "barando" usando scorciatoie ingannevoli.

  • Il messaggio: Le spiegazioni possono essere un "finto motivo" per nascondere la vera logica (o peggio, i pregiudizi).
  • La soluzione: Dobbiamo usare nuovi strumenti di controllo (come EST) che siano più bravi a smascherare queste truffe, specialmente in settori delicati come la medicina, la finanza o la giustizia.

È come se ci dicessero: "Non accontentatevi che il detective vi mostri il colpevole; controllate se il detective ha davvero investigato o se ha solo puntato il dito contro la prima persona che ha visto."

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →