Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un traduttore automatico super-intelligente (chiamiamolo "Il Maestro") che parla perfettamente tedesco, francese e arabo, ma che è anche un po' misterioso: nessuno sa esattamente come decide quale parola usare. È come una scatola nera magica.

Gli scienziati vogliono capire come funziona questa scatola. Per farlo, usano delle "luci speciali" chiamate metodi di spiegazione (XAI). Queste luci dovrebbero illuminare quali parole della frase originale sono state più importanti per il Maestro per creare la traduzione.

Il problema? Ci sono molte diverse "luci" (metodi) e non sappiamo quale sia quella giusta. Alcune potrebbero illuminare la cosa sbagliata, altre potrebbero essere troppo deboli. Come facciamo a capire quale luce è la migliore senza chiedere a un umano di guardare ogni singola traduzione (cosa che richiederebbe anni)?

L'Esperimento: Il Maestro e lo Studente

Gli autori di questo studio hanno inventato un esperimento geniale, come una scuola di traduzione:

Il Maestro: È il modello di traduzione già addestrato e molto bravo.
Lo Studente: È un modello più piccolo e "stupido" che deve imparare a tradurre.
La Lezione: Invece di dare allo studente solo la frase da tradurre, gli danno anche le mappe di luce (le spiegazioni) generate dal Maestro.

L'idea è semplice: "Se la luce del Maestro è buona, lo Studente dovrebbe imparare a tradurre meglio guardandola."

Se lo Studente, usando la mappa di luce del Metodo A, traduce molto meglio rispetto a quando usa la mappa del Metodo B, allora il Metodo A è la spiegazione migliore. È come dire: "Questa mappa stradale è utile perché mi ha permesso di arrivare a destinazione senza sbagliare strada".

Cosa hanno scoperto?

Hanno provato otto diversi tipi di "luci" (metodi) su tre coppie di lingue (Tedesco-Inglese, Francese-Inglese, Arabo-Inglese). Ecco i risultati principali, spiegati con metafore:

Le Luci Vincenti: I metodi chiamati Attention (Attenzione) e Value Zeroing (Azzeramento del Valore) sono stati i migliori. Sono come fari potenti e precisi: indicano esattamente quali parole sono importanti. Quando lo Studente ha usato queste mappe, le sue traduzioni sono diventate molto migliori (come se avesse fatto un salto di qualità).
Le Luci Confuse: Altri metodi, basati su calcoli matematici complessi (come i gradienti), sono stati meno efficaci. Sono come torce che lampeggiano in modo casuale: a volte aiutano, spesso confondono lo Studente.
Dove mettere la luce? Hanno scoperto che è meglio mettere queste mappe di luce nella parte del cervello che legge la frase originale (l'encoder), piuttosto che nella parte che scrive la frase nuova (il decoder). È come se fosse più utile dare allo studente una mappa chiara del territorio da attraversare, piuttosto che dirgli come muovere la penna mentre scrive.

Il Segreto: L'Imitatore (L'Attributor)

C'è un'ultima scoperta affascinante. Gli scienziati si sono chiesti: "Perché alcune mappe funzionano meglio di altre?"

Hanno costruito un robot imitatore (chiamato "Attributor"). Questo robot ha il compito di guardare la frase e provare a disegnare da solo la mappa di luce che il Maestro avrebbe disegnato.

Hanno scoperto una regola d'oro:

Più il robot riesce a disegnare una mappa simile a quella del Maestro, più quella mappa è utile per lo Studente.

È come se il robot dicesse: "Se riesco a capire e ricreare esattamente quali parole sono importanti, allora quella informazione è solida e affidabile. Se invece la mia copia è confusa, allora la mappa originale era probabilmente troppo complessa o sbagliata per essere usata".

In sintesi

Questo studio ci dice che per capire come funzionano le intelligenze artificiali complesse, non dobbiamo solo guardare le loro "spiegazioni" con gli occhi umani. Possiamo testarle praticamente: vediamo se quelle spiegazioni aiutano un altro modello a fare meglio il lavoro.

Le migliori spiegazioni sono quelle che:

Sono precise (come i metodi "Attenzione" e "Value Zeroing").
Sono facili da capire e ricreare per un'altra intelligenza artificiale (il robot imitatore).
Funzionano meglio quando ci guidano nella lettura della frase, non nella scrittura.

È un po' come dire: "La migliore mappa per un viaggiatore è quella che anche un altro viaggiatore può disegnare da memoria senza sbagliare strada".

Each language version is independently generated for its own context, not a direct translation.

Titolo

Valutazione dei Metodi di Attribuzione dell'AI Spiegabile (XAI) nella Traduzione Automatica Neurale (NMT) tramite Distillazione della Conoscenza Guidata dall'Attenzione.

1. Il Problema

La Traduzione Automatica Neurale (NMT), basata su architetture Transformer, è spesso considerata una "scatola nera" a causa della sua opacità interna. Sebbene esistano numerose tecniche di AI Spiegabile (XAI) per interpretare i modelli (come Saliency, Integrated Gradients, Attention, ecc.), la loro valutazione sistematica e automatizzata nei modelli sequenza-sequenza (seq2seq) è carente.
Le sfide principali includono:

La difficoltà nel determinare quali metodi di spiegazione riflettano accuratamente il ragionamento del modello.
La mancanza di framework di valutazione automatizzati scalabili per l'NMT, che spesso si affidano a valutazioni umane costose o a allineamenti di parole che non catturano pienamente le dinamiche di traduzione moderne.
L'incertezza su quali metodi di attribuzione siano più efficaci nel catturare le dipendenze input-output in contesti complessi come la NMT.

2. Metodologia

Gli autori propongono un nuovo framework di valutazione basato sulla simulabilità dei metodi XAI, utilizzando un approccio di distillazione della conoscenza Teacher-Student.

A. Setup Sperimentale

Teacher: Modelli NMT pre-addestrati (Marian-MT e mBART) su cui vengono calcolate le mappe di attribuzione per coppie sorgente-target.
Student: Un modello Transformer più piccolo (non addestrato) che riceve le stesse coppie di dati, ma con l'aggiunta delle mappe di attribuzione come segnale laterale strutturato.
Obiettivo: Se un metodo di attribuzione cattura correttamente le dipendenze del modello, dovrebbe guidare lo studente a fare previsioni migliori. La qualità della spiegazione è misurata indirettamente dal miglioramento delle prestazioni dello studente.

B. Estrazione e Iniezione delle Attribuzioni

Estrazione: Utilizzando la libreria Inseq, vengono estratte mappe di attribuzione per 8 metodi XAI diversi:
- Basati sul gradiente: Saliency, Input × Gradient (I×G), Layer Gradient × Activation (LG×A), Integrated Gradients (IG), Gradient SHAP (GSHAP), DeepLIFT.
- Basati sul modello: Attention (pesi di attenzione).
- Basati sulla perturbazione: Value Zeroing.
Preprocessing: Le mappe vengono normalizzate (MinMaxScaler) e aggregate per ottenere una matrice di importanza $E' \in \mathbb{R}^{j \times k}$ (lunghezza sorgente $\times$ lunghezza target).
Iniezione nell'Attenzione: Le mappe di attribuzione vengono iniettate nel meccanismo di attenzione dello studente (prima della funzione softmax) attraverso quattro operatori di composizione:
- Addizione (+): $A + E'$
- Moltiplicazione ( $\odot$ ): $A \odot E'$ (funziona come un meccanismo di gating).
- Media ( $\mu$ ): $(A + E') / 2$
- Sostituzione (R): Sostituire completamente i punteggi di attenzione con $E'$ .

C. Configurazioni di Valutazione

Oracle Setting: Le attribuzioni sono calcolate rispetto alla traduzione di riferimento (gold) o alla generazione del teacher.
Posizione di iniezione: Confronto tra l'iniezione nell'Self-Attention dell'Encoder e nella Cross-Attention Encoder-Decoder.
Analisi di Fedeltà: Valutazione della capacità dello studente di riprodurre la generazione del teacher (non solo la traduzione gold).

3. Risultati Chiave

A. Efficacia dei Metodi di Attribuzione

I metodi Attention, Value Zeroing e Layer Gradient × Activation (LG×A) hanno prodotto sistematicamente i maggiori guadagni in termini di BLEU e chrF rispetto alla baseline (senza attribuzioni).
- Esempio: Con Marian-MT su de-en, l'uso di Attention con l'operatore di moltiplicazione ha portato a un aumento di +20.0 punti BLEU.
I metodi basati puramente sul gradiente (come Saliency, IG, DeepLIFT) hanno mostrato miglioramenti minori e meno consistenti.
GSHAP ha costantemente ottenuto le prestazioni peggiori.
Operatore di Moltiplicazione ( $\odot$ ): È risultato essere l'operatore più efficace per combinare le attribuzioni con l'attenzione originale, superando addizione, media e sostituzione.

B. Posizione di Iniezione (Encoder vs Cross-Attention)

L'iniezione di attribuzioni nell'Self-Attention dell'Encoder ha portato a miglioramenti significativi e coerenti.
Al contrario, l'iniezione nella Cross-Attention ha spesso degradato le prestazioni o fornito guadagni marginali. Gli autori ipotizzano che questo sia dovuto alla natura autoregressiva del decoding: le attribuzioni fisse basate sulla sequenza target gold possono confondere il modello durante la generazione passo-passo, impedendogli di correggere errori.

C. Analisi della Fedeltà e Entropia

Le mappe di attribuzione con entropia più bassa (più concentrate su pochi token chiave) tendono a correlare con migliori prestazioni.
I metodi Attention e Value Zeroing mostrano le entropie più basse, indicando una maggiore certezza nell'identificare i token sorgente rilevanti.

D. L'Attributor e la Correlazione con le Prestazioni

Gli autori hanno introdotto una rete neurale chiamata Attributor (un Transformer encoder-decoder leggero) addestrata a ricostruire le mappe di attribuzione del teacher.

Scoperta fondamentale: Esiste una forte correlazione positiva tra la capacità dell'Attributor di ricostruire accuratamente i top-3 token sorgenti per ogni token target (misurata tramite Overlap@3 e Kendall's $\tau$ ) e i guadagni in BLEU ottenuti dallo studente quando quelle attribuzioni vengono iniettate.
La similarità della distribuzione globale (misurata con KL-divergence) è un predittore debole, mentre la capacità di identificare i pochi token più salienti è cruciale.

4. Contributi Principali

Framework di Valutazione Automatizzato: Proposta di un metodo basato sulla distillazione della conoscenza per valutare oggettivamente i metodi XAI in contesti seq2seq, superando la dipendenza da valutazioni umane.
Confronto Sistematico: Valutazione estesa di 8 metodi XAI su tre coppie linguistiche (tedesco-inglese, francese-inglese, arabo-inglese) e due architetture teacher (Marian-MT, mBART).
Analisi dell'Architettura: Dimostrazione che l'iniezione di attribuzioni nell'encoder è più efficace che nella cross-attention e che l'operatore di moltiplicazione è il più robusto.
Ipotesi sulla "Ricostruibilità": Evidenza empirica che un metodo di attribuzione è utile per un modello downstream se e solo se la sua mappa di attribuzione può essere facilmente ricostruita da un Transformer (cioè se cattura i segnali salienti in modo che il modello possa imitarli).

5. Significato e Implicazioni

Questo lavoro fornisce una risposta pratica alla domanda "quale metodo XAI è il migliore?" nel contesto della NMT: i metodi che catturano allineamenti chiari e concentrati (come Attention e Value Zeroing) sono superiori.
Inoltre, il paper suggerisce che la "utilità" di una spiegazione non è solo una questione di plausibilità umana, ma di fedeltà funzionale: una spiegazione è buona se permette a un modello più piccolo di simulare il comportamento di un modello più grande. Questo apre nuove strade per l'uso di spiegazioni XAI non solo per l'analisi, ma come segnale attivo per migliorare l'addestramento e l'efficienza dei modelli di traduzione.

Limitazioni: Il processo è computazionalmente costoso (richiede l'estrazione di attribuzioni su larga scala e il ri-addestramento di modelli). Lo studio si è limitato principalmente ai metodi basati sul gradiente e all'attenzione dell'encoder, lasciando per futuri lavori l'analisi dei metodi basati sulla perturbazione e l'iniezione nel decoder.