Towards Attributions of Input Variables in a Coalition

Each language version is independently generated for its own context, not a direct translation.

Il Problema: Chi ha fatto cosa? (Il Dilemma della Squadra)

Immagina di avere una squadra di calcio che ha appena vinto una partita. Il pubblico vuole sapere: "Chi è stato il vero eroe? Chi ha segnato il gol decisivo?"

Nell'Intelligenza Artificiale (AI), facciamo la stessa cosa: cerchiamo di capire quali "pezzi" di un'immagine o quali "parole" di una frase hanno spinto il computer a prendere una decisione (ad esempio, dire che una foto è un "gatto" o che una recensione è "positiva").

Fino a oggi, gli esperti usavano un metodo matematico chiamato Valore di Shapley (preso dalla teoria dei giochi) per dividere la "ricompensa" della vittoria tra i giocatori. Ma c'era un grosso problema: come si raggruppano i giocatori?

Se guardi una foto, devi valutare ogni singolo pixel? O raggruppi i pixel per formare un "occhio" o una "bocca"?
Se leggi una frase, devi valutare ogni singola lettera? O ogni parola? O ogni frase intera?

Il problema è che se cambi il modo in cui raggruppi le cose (ad esempio, trattando "raining cats and dogs" come un'unica unità invece che tre parole separate), il risultato cambia. A volte, la somma delle attribuzioni delle singole parti non fa uguale all'attribuzione del gruppo intero. È come se la somma dei punteggi dei singoli giocatori non corrispondesse al punteggio della squadra. Questo crea confusione e incoerenza.

La Soluzione: Il "Motore" Nascosto (Interazioni AND-OR)

Gli autori di questo studio hanno scoperto perché succede questo disastro. Hanno guardato dentro la "scatola nera" dell'AI e hanno visto che il cervello artificiale non pensa solo a parole o pixel isolati, ma pensa a relazioni.

Hanno usato due metafore potenti:

Interazioni AND (E): Immagina un codice di sicurezza che si apre solo se inserisci tutte le chiavi giuste contemporaneamente. Se manca anche solo una, il codice non funziona. Nell'AI, alcune parole (come "raining", "cats", "and", "dogs") devono essere tutte presenti insieme per creare il concetto di "pioggia torrenziale".
Interazioni OR (O): Immagina un allarme antincendio che suona se vedi o fumo o fiamme. Basta una sola cosa per attivare l'effetto.

Gli autori hanno dimostrato che il "Valore di Shapley" (il punteggio di importanza) è semplicemente una ripartizione matematica di questi effetti "E" e "O".

La Scoperta Chiave: Il "Conflitto"

Qui arriva la parte geniale. Hanno scoperto che il conflitto tra "gruppo" e "singoli" nasce quando l'AI usa le interazioni in modo "ibrido".

Esempio: Immagina che l'AI abbia imparato che la frase "raining cats and dogs" (pioggia torrenziale) è importante.
- Se la tratti come un gruppo unico, l'AI le dà un punteggio alto perché tutte le parole lavorano insieme (Interazione AND).
- Ma se guardi le parole singolarmente, l'AI potrebbe anche aver imparato che la parola "cats" da sola, in un altro contesto, significa qualcos'altro (Interazione OR con altre parole).

Il "conflitto" nasce perché alcune parole partecipano a gruppi parziali. La parola "cats" fa parte del gruppo "raining cats and dogs", ma fa anche parte di un altro gruppo "cats and dogs" (senza "raining").
L'AI non può assegnare il punteggio al gruppo intero e contemporaneamente sommare i punteggi delle singole parti senza creare un "buco" matematico, perché le parole stanno "lavorando" in due contesti diversi allo stesso tempo.

La Nuova Regola: Misurare la Fedeltà

Invece di forzare l'AI a dare sempre la stessa risposta (cosa che portava a errori), gli autori hanno creato un nuovo metodo per misurare quanto un gruppo è "fedele".

Hanno inventato tre "termometri" (metriche) per capire se un raggruppamento ha senso:

Il Termometro della Squadra: Quanto è forte il legame interno del gruppo? (Le parole lavorano davvero insieme come un'unica unità?)
Il Termometro del Giocatore: Quanto è importante questo giocatore specifico all'interno di quella squadra?
Il Termometro del Gruppo: Quanto è significativo l'intero gruppo rispetto a tutto il resto?

Se i termometri segnano valori alti, significa che quel gruppo (es. "raining cats and dogs") è un'unità reale e fedele. Se segnano valori bassi, significa che il gruppo è stato inventato a caso e non ha senso logico per l'AI.

Perché è utile? (L'esempio del Go)

Per dimostrare che funziona, hanno applicato il metodo al gioco del Go (un gioco di strategia complesso).
Hanno chiesto all'AI di spiegare perché una certa configurazione di pietre era buona o cattiva.

I giocatori umani esperti hanno detto: "Questa forma di pietre è un classico pattern chiamato 'spalla'".
L'AI, usando il nuovo metodo, ha confermato: "Sì, queste pietre formano un gruppo fedele e hanno un alto punteggio di importanza".

Ma ha fatto di più: ha scoperto nuovi pattern che nemmeno gli umani conoscevano, basandosi su statistiche a lungo termine che solo l'AI poteva vedere.

In Sintesi

Questo paper ci dice:

Non c'è un modo "giusto" universale per raggruppare le cose nell'AI.
Il disaccordo tra il punteggio del gruppo e quello dei singoli non è un errore, ma una conseguenza naturale di come l'AI combina le informazioni (AND e OR).
Ora abbiamo gli strumenti per dire: "Questo gruppo di parole/pixel ha senso ed è fedele alla logica dell'AI" oppure "Questo gruppo è solo un'illusione".

È come passare dal chiedere "Chi ha vinto?" a chiedere "Chi ha giocato davvero come una squadra coesa?".

Each language version is independently generated for its own context, not a direct translation.

Titolo: Verso le attribuzioni delle variabili di input in una coalizione

1. Il Problema

Nel campo dell'AI spiegabile (XAI), un'area fondamentale è la stima dell'importanza o dell'attribuzione delle variabili di input per un modello AI. Il Valore di Shapley è ampiamente considerato lo standard teorico per queste attribuzioni grazie al suo soddisfacimento di assiomi chiave (anonimato, simmetria, dummy, additività, efficienza).

Tuttavia, esiste una sfida teorica e pratica non risolta: come definire la partizione delle variabili di input?

Non esiste una teoria che guidi la scelta se trattare pixel, regioni locali, parole o token come unità di base.
Si verifica un conflitto di attribuzioni: quando si raggruppano variabili in una "coalizione" $S$ (es. una frase o una regione di un'immagine), l'attribuzione calcolata per l'intera coalizione $\phi(S)$ spesso non è uguale alla somma delle attribuzioni delle singole variabili che la compongono ( $\sum_{i \in S} \phi(i)$ ).
I metodi precedenti tentano di risolvere questo problema in modo ingegneristico (ad esempio, aggiungendo funzioni di perdita per forzare l'uguaglianza), ma manca una spiegazione teorica sul perché questo conflitto esista e su come valutare se una coalizione è "fedele" (faithful) alla logica del modello.

2. Metodologia

Gli autori propongono un approccio basato sulla decomposizione delle interazioni interne del modello per spiegare e quantificare questo conflitto.

A. Interazioni AND-OR

Il lavoro si basa sul concetto di interazioni AND-OR (Li & Zhang, 2023). Ogni output di un modello AI può essere scomposto in effetti numerici derivanti da:

Interazioni AND ( $I_{and}$ ): Richiedono la presenza di tutte le variabili in un insieme per attivarsi.
Interazioni OR ( $I_{or}$ ): Si attivano se qualsiasi variabile in un insieme è presente.
Il modello dimostra che i valori di Shapley e Banzhaf possono essere riformulati come una riallocazione di questi effetti di interazione tra le variabili.

B. Nuova Metrica di Attribuzione per la Coalizione

Estendendo la definizione del Valore di Shapley, gli autori definiscono una nuova metrica di attribuzione per una coalizione $S$ , denotata come $\phi(S)$ :
$\phi(S) = \sum_{T \supseteq S} \frac{|S|}{|T|} [I_{and}(T) + I_{or}(T)]$
Questa formula assegna alla coalizione $S$ la porzione degli effetti di interazione $T$ che coprono tutte le variabili di $S$ .

C. Teorizzazione del Conflitto

Il contributo teorico principale è la dimostrazione che il conflitto tra l'attribuzione della coalizione e la somma delle attribuzioni individuali è causato da interazioni parziali.
Specificamente, il Teorema 3.4 scompone la somma delle attribuzioni individuali in due componenti:

Componente condivisa ( $\phi_{shared}$ ): Corrisponde all'attribuzione della coalizione $\phi(S)$ .
Componente di conflitto ( $\phi_{conflict}$ ): Deriva dalle interazioni $T$ che contengono solo una parte delle variabili della coalizione $S$ (ma non tutte).
$\sum_{i \in S} \phi(i) = \phi(S) + \sum_{T: \emptyset \neq T \cap S \neq S} \frac{|T \cap S|}{|T|} [I_{and}(T) + I_{or}(T)]$
Il conflitto esiste perché le interazioni parziali contribuiscono alle attribuzioni individuali ma non all'attribuzione della coalizione come unità singola.

D. Metriche di Fedeltà (Faithfulness)

Per valutare se una coalizione è significativa (cioè se il modello la tratta come un'unità coerente), vengono proposti tre metriche:

$R(i)$ : Misura quanto l'effetto condiviso domina l'attribuzione di una singola variabile $i$ all'interno della coalizione.
$R'(i)$ : Misura la significatività della variabile $i$ partecipando alla coalizione rispetto ad altre interazioni.
$Q(S)$ : Misura la fedeltà dell'intera coalizione $S$ , confrontando la forza degli effetti allocati alla coalizione con la forza totale degli effetti delle variabili in $S$ .

3. Risultati Sperimentali

Gli esperimenti sono stati condotti su dati sintetici, NLP, classificazione di immagini e il gioco del Go.

Funzioni Sintetiche: Su funzioni con interazioni note, le metriche proposte hanno identificato correttamente le coalizioni "puremente fedeli" (valori vicini a 1), "parzialmente fedeli" e "non fedeli" (valori vicini a 0).
NLP (Sentiment Analysis): Utilizzando BERT e LLaMA su dataset come SST-2, il metodo ha dimostrato che frasi semanticamente coerenti (es. "mesmerizing performances") hanno alte metriche di fedeltà, mentre raggruppamenti casuali o semanticamente spezzati (es. "rivaling blair" che separa "blair witch") hanno basse metriche, allineandosi all'intuizione umana.
Classificazione di Immagini: Su MNIST e CIFAR-10 con VGG-11 e ResNet-20, le regioni selezionate manualmente che formano concetti visivi chiari (es. la testa di un cavallo) sono state classificate come coalizioni fedeli.
Gioco del Go (KataGo): Applicando il metodo al motore Go KataGo, gli autori hanno identificato pattern di forma (coalizioni di pietre) che influenzano il punteggio di vantaggio. I risultati hanno mostrato una forte correlazione con l'intuizione dei giocatori professionisti, aiutando a scoprire nuovi pattern strategici che il modello aveva appreso implicitamente ma che non erano immediatamente ovvi.

4. Contributi Chiave

Meccanismo Teorico: Svelano la causa interna del conflitto di attribuzioni, dimostrando che deriva dalle interazioni che coprono solo una parte delle variabili di una coalizione.
Nuova Metrica: Propongono una definizione estesa del Valore di Shapley per le coalizioni, basata sulla riallocazione delle interazioni AND-OR.
Valutazione della Fedeltà: Introducono tre metriche quantitative per determinare se un raggruppamento di variabili forma un'unità significativa per il modello, superando l'approccio puramente ingegneristico.
Validazione Pratica: Dimostrano l'utilità del metodo in scenari reali complessi, dal linguaggio naturale al gioco strategico.

5. Significato e Impatto

Questo lavoro risolve un problema fondamentale nell'XAI: la mancanza di criteri teorici per la partizione delle variabili. Invece di forzare l'uguaglianza tra attribuzioni individuali e di gruppo, il paper accetta e quantifica il conflitto, fornendo agli ricercatori e ai pratici strumenti per:

Capire quando e perché raggruppare variabili ha senso.
Identificare le unità semantiche reali che un modello AI sta utilizzando per prendere decisioni.
Migliorare l'interpretabilità dei modelli complessi (come le reti neurali profonde) rivelando le strutture di interazione sottostanti che guidano le loro previsioni.

In sintesi, il paper trasforma il problema della partizione delle variabili da una scelta arbitraria a una questione quantificabile e teoricamente fondata, migliorando la fiducia e la comprensione delle decisioni dell'AI.