GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

Il paper introduce GIFT, un framework post-hoc che genera spiegazioni testuali globali, interpretabili e fedeli per i classificatori visivi, combinando controfattuali visivi, modelli visione-linguaggio e una fase di verifica causale per rivelare le regole decisionali e i bias sottostanti dei modelli.

Éloi Zablocki, Valentin Gerard, Amaia Cardiel, Eric Gaussier, Matthieu Cord, Eduardo Valle

Pubblicato 2026-02-23
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un detective digitale molto intelligente, ma un po' misterioso. Questo detective è un'intelligenza artificiale (un "modello di visione") che guarda le foto e decide cosa c'è dentro: "Questa è una faccia vecchia", "Questa strada è pericolosa", o "Questo oggetto è rosso".

Il problema è che il detective è un genio silenzioso. Sa la risposta, ma non ti dice perché l'ha data. Se gli chiedi: "Perché hai detto che questa foto è 'vecchia'?", lui potrebbe solo indicarti un punto sfocato della foto, che non ti dice nulla di utile.

Gli scienziati hanno creato un nuovo metodo chiamato GIFT (che sta per Global, Interpretable, Faithful, Textual – Globale, Interpretabile, Fedele, Testuale) per far parlare questo detective e capire davvero come ragiona.

Ecco come funziona GIFT, spiegato con un'analogia semplice:

1. Il Gioco del "Cosa succederebbe se..." (Controfattuali)

Immagina di voler capire perché il detective dice che una foto è "vecchia". Invece di guardare la foto statica, GIFT fa un esperimento mentale: "Cosa succederebbe se togliessimo le rughe?" o "Cosa succederebbe se mettessimo gli occhiali?".

GIFT prende la foto originale e ne crea una versione modificata (un "controfattuale") in cui cambia solo un piccolo dettaglio, come se fosse un mago che modifica la realtà.

  • Se togli le rughe e il detective cambia idea e dice "Giovane!", allora GIFT capisce: "Aha! Le rughe sono la chiave!".
  • Questo è il primo passo: creare prove visive di cosa fa cambiare idea al modello.

2. Il Traduttore (Dalle Immagini alle Parole)

Ora, GIFT ha una pila di queste foto modificate. Ma le foto sono difficili da spiegare a voce. Quindi, GIFT usa un traduttore speciale (un modello di linguaggio visivo) che guarda la foto originale e quella modificata e scrive una frase semplice.

  • Invece di dirti "il pixel (10, 20) è cambiato", il traduttore dice: "Nella foto modificata, le rughe sulla fronte sono sparite".
  • Questo trasforma il linguaggio confuso dei computer in linguaggio umano.

3. Il Detective che Trova il Pattern (Ragionamento Globale)

Finora, GIFT ha solo piccoli indizi su singole foto. Ma il detective ha bisogno di capire la regola generale! GIFT prende tutte queste frasi scritte dal traduttore e le dà a un super-intelletto (un modello di linguaggio come ChatGPT).

  • Il super-intelletto legge centinaia di queste frasi e dice: "Aspetta, ho notato che ogni volta che c'è un oggetto rosso metallico, il modello dice 'Sì'. Ogni volta che c'è un oggetto blu, dice 'No'".
  • Invece di guardare una foto alla volta, GIFT trova la regola d'oro che il modello sta usando per tutte le foto.

4. Il Test di Verità (La Prova del Fuoco)

Qui sta il genio di GIFT. A volte, il super-intelletto potrebbe sbagliare e inventare una regola che non esiste davvero. Quindi, GIFT fa un ultimo controllo, come un giudice severo.

  • Prende la regola trovata (es. "Il modello guarda le rughe") e prova a modificarla di nuovo sulla foto, ma questa volta in modo controllato.
  • Se la regola è vera, cambiare le rughe deve cambiare la decisione del modello. Se il modello non cambia idea, allora la regola era falsa.
  • Questo assicura che la spiegazione non sia solo una coincidenza, ma la vera ragione per cui il modello ha preso quella decisione.

Perché è importante? (L'analogia del "Bias")

Immagina un detective che deve decidere se una persona può guidare. Se il detective è "pazzo", potrebbe dire: "Non può guidare perché c'è un'auto parcheggiata a sinistra".
Senza GIFT, nessuno se ne accorgerebbe. Ma GIFT, facendo il suo gioco del "cosa succederebbe se", scoprirebbe: "Ehi! Ogni volta che c'è un'auto a sinistra, il modello dice 'No', anche se la strada è libera!".
Così GIFT ci avvisa: "Attenzione! Il tuo modello ha un pregiudizio (bias) nascosto!".

In sintesi

GIFT è come un traduttore e un investigatore in uno:

  1. Modifica le foto per vedere come reagisce l'IA.
  2. Traduce le modifiche in parole semplici.
  3. Ragiona per trovare la regola generale.
  4. Verifica che la regola sia vera e non un'illusione.

Grazie a GIFT, possiamo finalmente chiedere all'IA: "Perché hai preso questa decisione?" e ottenere una risposta chiara, onesta e comprensibile, invece di un mistero incomprensibile.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →