GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un detective digitale molto intelligente, ma un po' misterioso. Questo detective è un'intelligenza artificiale (un "modello di visione") che guarda le foto e decide cosa c'è dentro: "Questa è una faccia vecchia", "Questa strada è pericolosa", o "Questo oggetto è rosso".

Il problema è che il detective è un genio silenzioso. Sa la risposta, ma non ti dice perché l'ha data. Se gli chiedi: "Perché hai detto che questa foto è 'vecchia'?", lui potrebbe solo indicarti un punto sfocato della foto, che non ti dice nulla di utile.

Gli scienziati hanno creato un nuovo metodo chiamato GIFT (che sta per Global, Interpretable, Faithful, Textual – Globale, Interpretabile, Fedele, Testuale) per far parlare questo detective e capire davvero come ragiona.

Ecco come funziona GIFT, spiegato con un'analogia semplice:

1. Il Gioco del "Cosa succederebbe se..." (Controfattuali)

Immagina di voler capire perché il detective dice che una foto è "vecchia". Invece di guardare la foto statica, GIFT fa un esperimento mentale: "Cosa succederebbe se togliessimo le rughe?" o "Cosa succederebbe se mettessimo gli occhiali?".

GIFT prende la foto originale e ne crea una versione modificata (un "controfattuale") in cui cambia solo un piccolo dettaglio, come se fosse un mago che modifica la realtà.

Se togli le rughe e il detective cambia idea e dice "Giovane!", allora GIFT capisce: "Aha! Le rughe sono la chiave!".
Questo è il primo passo: creare prove visive di cosa fa cambiare idea al modello.

2. Il Traduttore (Dalle Immagini alle Parole)

Ora, GIFT ha una pila di queste foto modificate. Ma le foto sono difficili da spiegare a voce. Quindi, GIFT usa un traduttore speciale (un modello di linguaggio visivo) che guarda la foto originale e quella modificata e scrive una frase semplice.

Invece di dirti "il pixel (10, 20) è cambiato", il traduttore dice: "Nella foto modificata, le rughe sulla fronte sono sparite".
Questo trasforma il linguaggio confuso dei computer in linguaggio umano.

3. Il Detective che Trova il Pattern (Ragionamento Globale)

Finora, GIFT ha solo piccoli indizi su singole foto. Ma il detective ha bisogno di capire la regola generale! GIFT prende tutte queste frasi scritte dal traduttore e le dà a un super-intelletto (un modello di linguaggio come ChatGPT).

Il super-intelletto legge centinaia di queste frasi e dice: "Aspetta, ho notato che ogni volta che c'è un oggetto rosso metallico, il modello dice 'Sì'. Ogni volta che c'è un oggetto blu, dice 'No'".
Invece di guardare una foto alla volta, GIFT trova la regola d'oro che il modello sta usando per tutte le foto.

4. Il Test di Verità (La Prova del Fuoco)

Qui sta il genio di GIFT. A volte, il super-intelletto potrebbe sbagliare e inventare una regola che non esiste davvero. Quindi, GIFT fa un ultimo controllo, come un giudice severo.

Prende la regola trovata (es. "Il modello guarda le rughe") e prova a modificarla di nuovo sulla foto, ma questa volta in modo controllato.
Se la regola è vera, cambiare le rughe deve cambiare la decisione del modello. Se il modello non cambia idea, allora la regola era falsa.
Questo assicura che la spiegazione non sia solo una coincidenza, ma la vera ragione per cui il modello ha preso quella decisione.

Perché è importante? (L'analogia del "Bias")

Immagina un detective che deve decidere se una persona può guidare. Se il detective è "pazzo", potrebbe dire: "Non può guidare perché c'è un'auto parcheggiata a sinistra".
Senza GIFT, nessuno se ne accorgerebbe. Ma GIFT, facendo il suo gioco del "cosa succederebbe se", scoprirebbe: "Ehi! Ogni volta che c'è un'auto a sinistra, il modello dice 'No', anche se la strada è libera!".
Così GIFT ci avvisa: "Attenzione! Il tuo modello ha un pregiudizio (bias) nascosto!".

In sintesi

GIFT è come un traduttore e un investigatore in uno:

Modifica le foto per vedere come reagisce l'IA.
Traduce le modifiche in parole semplici.
Ragiona per trovare la regola generale.
Verifica che la regola sia vera e non un'illusione.

Grazie a GIFT, possiamo finalmente chiedere all'IA: "Perché hai preso questa decisione?" e ottenere una risposta chiara, onesta e comprensibile, invece di un mistero incomprensibile.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'interpretabilità dei modelli di visione artificiale (vision classifiers) è fondamentale per il loro deployment sicuro in ambiti ad alto rischio come la guida autonoma e la diagnostica medica. Tuttavia, le approcci esistenti soffrono di limitazioni critiche:

Mappature di salienza (Saliency Maps): Forniscono spiegazioni locali (per istanza) e spesso non fedeli (unfaithful), basandosi su correlazioni spurie piuttosto che su relazioni causali.
Metodi basati su concetti: Richiedono spesso annotazioni manuali o sono specifici dell'architettura, limitando la loro applicabilità generale.
Spiegazioni controfattuali (Counterfactuals): Sebbene fedeli per definizione (mostrano le modifiche minime necessarie per cambiare la previsione), sono intrinsecamente locali (riguardano un singolo input), difficili da interpretare per gli umani (richiedono analisi visiva) e ambigui (una singola modifica può avere molteplici cause plausibili).

Manca un framework in grado di fornire spiegazioni Globali, Interpretabili (in linguaggio naturale), Fedeli (causalmente verificate) e Testuali per i classificatori visivi.

2. Metodologia: Il Framework GIFT

GIFT è un framework post-hoc che trasforma spiegazioni locali e visive in regole globali testuali, verificandone la fedeltà causale. Il processo si articola in quattro fasi sequenziali (illustrate nella Figura 1 del paper):

Fase 1: Generazione di Spiegazioni Visive Locali e Fedeli

Il sistema genera coppie di immagini controfattuali per un dataset di input. Utilizzando un generatore di controfattuali (es. OCTET, ACE), modifica minimamente un'immagine $x$ per ottenere $x'$ tale che la previsione del modello cambi ( $M(x) \neq M(x')$ ).

Obiettivo: Identificare le modifiche semantiche minime che attraversano il confine decisionale del modello.
Vantaggio: Queste spiegazioni sono intrinsecamente fedeli perché derivano direttamente dal comportamento del modello, non da approssimazioni surrogate.

Fase 2: Traduzione in Linguaggio Naturale (Change Captioning)

Un modello Vision-Language (VLM) analizza ogni coppia $(x, x')$ e genera una descrizione testuale delle differenze visive (es. "l'oggetto rosso è diventato blu", "è stato rimosso un pedone").

Obiettivo: Trasformare i segnali visivi locali in testo leggibile dall'uomo, rendendo le spiegazioni più accessibili rispetto alle mappe di salienza.
Sfida: Questo passaggio può introdurre rumore o ambiguità, poiché il testo è una compressione dell'informazione visiva.

Fase 3: Aggregazione in Spiegazioni Globali Candidate

Un Large Language Model (LLM) riceve l'insieme di tutte le didascalie delle modifiche generate nella Fase 2. Il suo compito è:

Analizzare i pattern ricorrenti tra migliaia di spiegazioni locali.
Risolvere le ambiguità (es. distinguere se il modello reagisce alla "presenza di un oggetto rosso" o all'"assenza di un oggetto blu").
Generare un insieme di ipotesi globali candidate (es. "La classe 1 è predetta se è presente un oggetto metallico rosso").

Innovazione: L'LLM non ha accesso diretto al modello di visione, ma ragiona solo sui segnali causali locali aggregati.

Fase 4: Verifica Causale delle Ipotesi

Questa è la fase cruciale che garantisce la fedeltà. Le ipotesi generate nella Fase 3 vengono verificate quantitativamente intervenendo direttamente sulle immagini.
Per ogni concetto $c_e$ estratto da un'ipotesi $e$ :

Filtro Grossolano (Correlazione): Si calcola l'Informazione Diretta (Directed Information - DI) tra la presenza del concetto e la classe prevista, utilizzando un modello VQA (Visual Question Answering).
Filtro Fine (Causalità): Si utilizzano modelli di editing delle immagini (es. Stable Diffusion) per intervenire sulle immagini di un set di validazione:
- Si aggiunge il concetto $c_e$ a immagini dove è assente.
- Si rimuove il concetto $c_e$ da immagini dove è presente.
- Si osserva l'impatto sulla previsione del modello.
Metriche Causali: Si calcolano due metriche per quantificare l'effetto:
- CaCE (Causal Concept Effect): Misura la differenza media nella probabilità di classe dovuta all'intervento.
- PNS (Probability of Necessary and Sufficient cause): Stima la probabilità che il concetto sia sia necessario che sufficiente per la decisione.
  Solo le ipotesi con un alto impatto causale vengono mantenute come spiegazioni finali.

3. Contributi Chiave

Primo Framework Globale e Testuale: GIFT è il primo approccio che unisce spiegazioni controfattuali locali, ragionamento in linguaggio naturale e verifica causale per produrre regole globali interpretabili.
Sinergia tra Segnali Locali e Ragionamento Globale: Combina la fedeltà dei controfattuali (che catturano la causalità locale) con la capacità di astrazione degli LLM per scoprire pattern globali.
Verifica Causale Rigorosa: Introduce un meccanismo di validazione basato su interventi di immagine reali, superando le limitazioni delle spiegazioni puramente correlate.
Scoperta di Bias Inaspettati: Dimostra la capacità di rivelare bias nei modelli che gli esseri umani o gli LLM da soli non riescono a individuare senza la guida dei controfattuali.

4. Risultati Sperimentali

Il framework è stato validato su tre dataset con complessità crescente:

CLEVR (Ambiente Sintetico):
- Obiettivo: Decodificare regole di classificazione binaria complesse (es. "oggetto rosso metallico").
- Risultato: GIFT ha identificato correttamente la regola vera in 11 casi su 12 (con architetture ResNet e ViT), posizionando la regola corretta al primo posto dopo la riordinamento tramite metriche causali.
- Ablazione: Senza la Fase 4 (verifica causale) o senza le didascalie di cambiamento (Fase 2), la precisione crolla drasticamente.
CelebA (Riconoscimento Facciale):
- Obiettivo: Spiegare un classificatore "Giovane/Vecchio".
- Risultato: Ha identificato attributi noti (rughe, capelli grigi) ma anche bias inaspettati (es. "sfondo dettagliato" o "angolazione della telecamera").
- Scoperta: Ha dimostrato che attributi singoli hanno bassa causalità, ma combinazioni (es. "Occhiali + Rughe sulla fronte") hanno un alto PNS, rivelando la complessità delle decisioni del modello.
BDD-OIA (Scenes di Guida):
- Obiettivo: Rilevare bias in un classificatore "Può/Gira a destra". Il modello era stato addestrato con un bias intenzionale: associare la presenza di veicoli nella corsia sinistra all'impossibilità di girare a destra.
- Risultato: GIFT ha identificato il bias "traffico denso nella corsia sinistra" con un alto CaCE (45%) e PNS (47%).
- Confronto: Studi precedenti e tentativi con LLM senza guida controfattuale hanno fallito nel rilevare questo bias specifico, dimostrando che l'approccio di GIFT è superiore per la scoperta di bias non intuitivi.

5. Significato e Impatto

GIFT rappresenta un passo avanti significativo nell'XAI (Explainable AI) per la visione artificiale:

Affidabilità: Sposta il paradigma da spiegazioni basate su correlazioni (spesso ingannevoli) a spiegazioni basate su causalità verificata.
Interpretabilità Umana: Trasforma dati complessi in regole testuali chiare, facilitando l'audit dei modelli da parte di esperti umani.
Sicurezza: La capacità di scoprire bias nascosti (come quelli nelle scene di guida) è cruciale per evitare errori critici in sistemi autonomi.
Flessibilità: Essendo un framework modulare, può essere adattato a diversi domini e modelli, purché si disponga di generatori di controfattuali e strumenti di editing adeguati.

In sintesi, GIFT colma il divario tra il ragionamento controfattuale locale (fedele ma frammentato) e l'interpretabilità globale (chiara ma spesso infedele), offrendo un approccio principiato per comprendere il "perché" delle decisioni dei modelli di visione.