Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Questo studio dimostra che la sensibilità delle spiegazioni dei modelli Transformer alla casualità del training è statisticamente significativa e varia in base al contesto sintattico, alle classi e ai compiti, risultando rispettivamente minima, media e massima.

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert

Pubblicato 2026-03-10
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un gruppo di 200 chef (i modelli di intelligenza artificiale) che hanno tutti ricevuto lo stesso identico libro di ricette (i dati di addestramento) e gli stessi ingredienti. Tuttavia, c'è un piccolo dettaglio: ogni chef ha un po' di "creatività casuale" quando inizia a cucinare. Alcuni mescolano gli ingredienti in un ordine leggermente diverso, altri tagliano le verdure con un ritmo variabile.

Il risultato? Tutti i chef preparano un piatto che sa quasi esattamente allo stesso modo (sono tutti bravi e precisi). Ma se chiedi loro: "Perché hai messo questo sale proprio qui?" o "Qual è stato l'ingrediente segreto che ha fatto la differenza?", le loro risposte possono essere completamente diverse.

Questo è il cuore del paper che hai condiviso. Gli autori (Romain, Jérémie e François-Xavier) hanno scoperto che le spiegazioni che diamo all'intelligenza artificiale sono molto fragili e cambiano a seconda di tre cose principali. Ecco come funziona, spiegato con parole semplici e analogie:

1. L'Ordine delle Parole (Il Contesto)

Immagina di avere una frase: "John ha mangiato la mela".
Se mescoli le parole come se fossero carte da gioco ("Mela John ha la mangiato"), il significato diventa assurdo, ma le parole sono le stesse.

  • La scoperta: Quando le parole sono in ordine logico, i chef (i modelli) sono d'accordo su quale parola sia importante. Se mescoli le parole, anche se il modello impara comunque a riconoscere il senso, le sue spiegazioni diventano un po' più "nervose" e meno stabili.
  • L'analogia: È come se, se le istruzioni fossero scritte in ordine, tutti i cuochi indicassero il sale come ingrediente chiave. Se le istruzioni sono scritte a caso, alcuni cuochi potrebbero indicare il sale, altri il pepe, anche se il piatto finale è buono.
  • Conclusione: L'ordine delle parole ha un impatto, ma è il meno grave dei tre fattori.

2. La Presenza o Assenza di "Indizi Chiave" (Le Classi)

Ora immagina due tipi di indovinelli:

  • Indovinello A: "Trova la parola 'John'". È facile, c'è un indizio chiaro.

  • Indovinello B: "Trova la parola 'John', ma se non c'è, devi dire che la frase è diversa". Qui, se la parola manca, non c'è nessun indizio visibile da puntare con il dito.

  • La scoperta: Quando l'intelligenza artificiale deve spiegare una decisione basata su un indizio chiaro (come la parola "John"), le spiegazioni sono stabili. Ma quando deve spiegare una decisione basata sull'assenza di qualcosa (quando "John" non c'è), le spiegazioni diventano molto più variabili e confuse.

  • L'analogia: Se devi trovare un ago in un pagliaio, tutti diranno "l'ho trovato perché c'era l'ago". Ma se devi spiegare perché non hai trovato l'ago, ognuno di voi guarderà cose diverse (un filo rosso, un sasso, un'ombra) e dirà: "Ecco perché non c'era". Nessuno è d'accordo su cosa guardare.

  • Conclusione: Questo è un fattore di media importanza. Se il modello deve spiegare un "non-evento", le sue giustificazioni sono meno affidabili.

3. Il Tipo di Compito (L'Obiettivo)

Infine, confrontiamo due compiti molto diversi:

  • Compito 1: Distinguere tra articoli di "Astronomia" e "Matematica". Le parole sono molto diverse (stelle vs numeri). È facile.

  • Compito 2: Distinguere tra "Notizie" e "Opinioni". Le parole sono simili, bisogna capire il tono, il contesto profondo e le sfumature. È difficile.

  • La scoperta: La stabilità delle spiegazioni cambia drasticamente a seconda di quanto è difficile il compito. Per il compito facile (Astronomia vs Matematica), le spiegazioni sono molto stabili. Per il compito difficile (Notizie vs Opinioni), le spiegazioni cambiano molto da un modello all'altro.

  • L'analogia: Se devi dire se una macchina è rossa o blu, tutti saranno d'accordo. Ma se devi dire se una persona è "gentile" o "scortese" basandoti su una conversazione, ognuno di voi potrebbe guardare cose diverse (un sorriso, un tono di voce, una parola specifica) e dare spiegazioni diverse.

  • Conclusione: Questo è il fattore più importante. Più il compito è complesso e sfumato, meno le spiegazioni dell'IA sono stabili e affidabili.

In sintesi: Cosa ci dicono questi risultati?

Gli autori ci dicono che non possiamo fidarci ciecamente di una singola spiegazione data dall'IA. È come se chiedessimo a un solo chef perché ha cucinato quel piatto: la sua risposta potrebbe essere solo una delle tante possibili.

  • Il problema: Se cambiamo leggermente come l'IA viene addestrata (il "caso" iniziale), le sue spiegazioni cambiano.
  • La soluzione suggerita: Dobbiamo guardare le spiegazioni come un insieme di opinioni (una distribuzione) e non come una verità assoluta.
  • Il messaggio finale: Quando l'IA deve fare compiti complessi o basarsi sull'assenza di indizi, le sue spiegazioni sono più fragili. Dobbiamo essere cauti e capire che la "ragione" che l'IA ci dà potrebbe essere solo una delle tante possibilità, non necessariamente la verità oggettiva su come ha lavorato il suo "cervello".

In parole povere: l'IA è brava a fare il lavoro, ma se le chiediamo di spiegare perché l'ha fatto, la sua risposta dipende da quanto è difficile il compito e da come è stata "impostata" la sua creatività iniziale.