From Features to Actions: Explainability in Traditional and Agentic AI Systems

Each language version is independently generated for its own context, not a direct translation.

🧠 Il Grande Cambio di Paradigma: Dal "Fotografo" al "Viaggiatore"

Immagina che l'Intelligenza Artificiale (AI) sia come un viaggiatore.

Per dieci anni, abbiamo studiato l'AI come se fosse un fotografo. Gli davi una foto (l'input) e lui ti dice cosa c'è dentro (l'output). Se la foto è di un gatto, lui dice "Gatto".
In questo mondo statico, gli esperti di "Explainable AI" (AI spiegabile) usavano strumenti come SHAP o LIME. Pensa a questi strumenti come a un evidenziatore magico: ti mostrano quali parole nella foto (o nel testo) hanno convinto il fotografo a dire "gatto". Se la foto era ambigua, l'evidenziatore ti dice: "Ehi, è stato quel baffo nero a fargli dire gatto!". Funziona bene, è stabile e ci capiamo.

Ma ora le cose sono cambiate.
Oggi abbiamo l'AI Agente. Non è più un fotografo che scatta una foto e basta. È un viaggiatore che deve attraversare un continente intero per raggiungere una destinazione.

Deve fare molte tappe (passi).
Deve usare strumenti (mappe, bus, treni).
Deve prendere decisioni lungo il percorso.
Se sbaglia un treno, deve cambiare piano e riprovare.

Il problema? Gli strumenti vecchi (l'evidenziatore magico) non funzionano più per un viaggiatore. Se chiedi a un'AI agente: "Perché hai fallito il viaggio?", l'evidenziatore ti risponde: "Beh, ho guardato la tua richiesta iniziale e ho visto che volevi andare a Roma". Ma questo non ti dice perché sei finito in un fosso! Non ti dice che hai preso il treno sbagliato al passo 3, o che hai dimenticato di controllare il biglietto al passo 7.

🕵️‍♂️ La Scoperta: Non basta guardare la foto finale

Gli autori di questo studio hanno fatto un esperimento molto intelligente. Hanno confrontato due modi di guardare i fallimenti dell'AI:

Il Metodo Vecchio (Attribuzione): Come l'evidenziatore. Guarda tutto il viaggio e cerca di dire: "In generale, le parole 'viaggio' e 'treno' sono correlate al successo".
- Risultato: Funziona bene per i compiti semplici (come classificare un annuncio di lavoro), ma è cieco quando si tratta di capire dove esattamente un agente ha sbagliato durante un viaggio complesso. È come guardare la mappa di un'intera città e dire "Il traffico è stato il problema", senza sapere che il guidatore ha sbagliato strada all'incrocio di Via Roma.
Il Metodo Nuovo (Tracce e Rubriche): Qui gli autori hanno inventato un nuovo modo di guardare. Invece di guardare solo l'inizio e la fine, guardano l'intero diario di viaggio (le "tracce").
- Hanno creato una lista di controllo (rubrica) come quella che usa un ispettore di volo o un allenatore sportivo. Chiedono: "L'agente ha mantenuto il piano?", "Ha usato lo strumento giusto?", "Ha ricordato dove si trovava?".
- Risultato: Questo metodo funziona benissimo! Hanno scoperto che il 90% dei fallimenti non è dovuto a una "cattiva idea iniziale", ma a incoerenze nello stato (l'agente si è "dimenticato" dove era o cosa aveva fatto prima) o a scelte sbagliate degli strumenti.

📊 I Risultati in Pillole (con analogie)

Il "Fotografo" (AI Statica): Se usi SHAP (l'evidenziatore) su un compito semplice, funziona alla grande. È stabile. È come dire: "Questa ricetta è buona perché c'è molto zucchero".
Il "Viaggiatore" (AI Agente): Se usi SHAP su un agente che prenota un volo, fallisce. SHAP non può dirti: "Hai prenotato il volo sbagliato perché hai confuso la data di ritorno con quella di andata". SHAP ti dice solo: "La parola 'volo' era importante".
La Lista di Controllo (Rubrica): Quando hanno usato la lista di controllo sulle tracce del viaggio, hanno scoperto che:
- Se l'agente perde il filo del suo piano (incoerenza dello stato), le probabilità di successo crollano del 49%.
- È 2,7 volte più probabile che un agente fallisca perché si è "confuso" durante il viaggio rispetto a quando riesce.

🚀 Perché è importante? (La Morale della Favola)

Immagina di avere un assistente personale AI che deve gestire le tue finanze o prenotare un viaggio medico.

Se usi il metodo vecchio, l'AI ti dirà: "Ho analizzato la tua richiesta e ho deciso di spendere i tuoi soldi per questo investimento". Non sai perché ha preso quella decisione specifica a quel momento.
Con il metodo nuovo (le tracce), l'AI ti dice: "Ho fallito perché al passo 4 ho usato il tool sbagliato per controllare il saldo, e al passo 7 ho dimenticato di aggiornare il budget. Ecco esattamente dove ho sbagliato".

💡 Conclusione Semplificata

Questo paper ci dice che non possiamo più usare le stesse lenti per guardare l'AI di oggi.
L'AI non è più un semplice "risponditore di domande", ma un "esecutore di compiti complessi". Per capire perché fallisce, non basta guardare la domanda iniziale (input) e la risposta finale (output). Dobbiamo guardare il filmato intero del suo viaggio, passo dopo passo, per vedere dove si è inceppato.

Gli autori propongono un nuovo pacchetto chiamato MEP (Minimal Explanation Packet): non è solo una spiegazione, è un pacchetto completo che include:

Cosa è successo (la spiegazione).
Le prove (il diario di viaggio, le email, i tool usati).
La verifica (una lista di controllo che dice se l'agente ha rispettato le regole).

In sintesi: Dalla "fotografia" al "film". Per capire l'AI moderna, dobbiamo guardare l'intero film, non solo la copertina.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

L'Intelligenza Artificiale Spiegabile (XAI) tradizionale si è concentrata principalmente sull'interpretazione di singole previsioni di modelli statici, generando spiegazioni post-hoc che mappano gli input agli output in una struttura decisionale fissa (es. SHAP, LIME). Tuttavia, il panorama dell'IA è cambiato con l'avvento dei sistemi AI agentic basati su Large Language Models (LLM).
In questi sistemi, il comportamento non è un singolo output, ma una traiettoria che si svolge nel tempo, composta da sequenze di osservazioni, decisioni, invocazioni di strumenti (tool) e aggiornamenti dello stato interno.
Il problema centrale identificato dagli autori è che i metodi di spiegazione progettati per previsioni statiche non sono adatti a diagnosticare i fallimenti nei sistemi agentic, dove il successo o l'insuccesso dipendono da catene di decisioni e dalla coerenza dello stato nel tempo, non da un singolo passo inferenziale.

2. Metodologia

Gli autori propongono un quadro unificato per confrontare le spiegazioni statiche con quelle agentic, introducendo il concetto di Minimal Explanation Packet (MEP).

Distinzione dei Paradigmi:
- Statico: Spiegazione basata su attribuzione di feature per un singolo input-output ( $y = f(x)$ ).
- Agentic: Spiegazione basata su una traiettoria $\tau = (s_0, a_0, o_0, \dots, s_T)$ , dove $s$ è lo stato, $a$ l'azione e $o$ l'osservazione.
Struttura MEP: Un pacchetto che include:
1. Artefatto di spiegazione: (es. mappa di attribuzione o traccia di ragionamento).
2. Evidenza collegata: (es. log di esecuzione, documenti recuperati, snapshot dello stato).
3. Segnali di verifica: (es. stabilità della perturbazione, flag comportamentali basati su rubriche).
Setup Sperimentale:
- Setting Statico: Classificazione binaria (IT vs Non-IT) su annunci di lavoro online utilizzando modelli come TF-IDF + Logistic Regression e Text CNN.
- Setting Agentic: Utilizzo di benchmark per agenti tool-using: TAU-bench Airline (task di servizio clienti strutturati) e AssistantBench (task di assistenza web). Gli agenti sono basati su modelli come GPT-4.1 e o4-mini.
- Analisi: Per i sistemi agentic, le tracce di esecuzione sono annotate post-hoc utilizzando un giudice LLM (GPT-5) e il framework Docent per applicare una serie di rubriche comportamentali (es. Allineamento all'intento, Coerenza dello stato, Correttezza degli strumenti).

3. Contributi Chiave

Distinzione Formale: Definizione chiara della differenza tra spiegabilità per predittori statici e per sistemi agentic, spostando il focus dall'influenza delle feature al resoconto decisionale della traiettoria.
Tassonomia Cross-Paradigma: Creazione di una tassonomia che mappa gli obiettivi di spiegazione (dalle attribuzioni a livello di feature ai resoconti a livello di traiettoria) e gli artefatti necessari.
Confronto Empirico: Un'analisi comparativa che dimostra come i metodi di attribuzione falliscano nel localizzare i fallimenti specifici nelle traiettorie agentic, mentre le valutazioni basate su tracce (trace-based) riescano a isolare le cause profonde.
Introduzione del MEP: Un framework metodologico per incapsulare spiegazioni, evidenze e segnali di verifica in un'unica unità analizzabile.

4. Risultati Principali

Setting Statico: I metodi di attribuzione (SHAP, LIME) mostrano una stabilità elevata nelle classifiche delle feature (Spearman $\rho = 0.86$ per TF-IDF), confermando la loro efficacia in contesti statici.
Setting Agentic:
- I metodi di attribuzione, anche se applicati a feature aggregate derivate dalle traiettorie, non riescono a localizzare affidabilmente quale vincolo è stato violato in un'esecuzione specifica fallita.
- Le valutazioni basate su rubriche (trace-grounded) sono superiori nel diagnosticare i fallimenti.
- Fattori Critici di Fallimento:
  - In TAU-bench Airline, l'incoerenza nel tracciamento dello stato (State Tracking Inconsistency) è il fattore più critico: è 2.7 volte più frequente nelle esecuzioni fallite rispetto a quelle riuscite e riduce la probabilità di successo del 49%. Questo indica un fallimento "lento" dove piccoli errori si accumulano.
  - In AssistantBench, i fallimenti sono spesso guidati da errori decisivi e rari, come una scelta dello strumento errata (Tool Choice Accuracy), che agiscono come blocchi immediati ("fast failure").
Esperimento di Ponte: Quando le traiettorie sono compressi in vettori di feature basati sulle rubriche e analizzati con SHAP, si ottengono classifiche globali sensate, ma questo approccio rimane puramente correlazionale e non fornisce diagnosi causali per singole esecuzioni.

5. Significato e Implicazioni

Il paper dimostra che l'XAI tradizionale è insufficiente per i sistemi AI autonomi moderni.

Cambio di Paradigma: È necessario passare da spiegazioni basate su "feature" a spiegazioni basate su traiettorie. La spiegabilità non deve essere solo un artefatto statico, ma un resoconto strutturato del comportamento, ancorato all'evidenza esecutiva e verificabile.
Diagnosi Operativa: Le spiegazioni basate su tracce permettono di identificare dove e perché un agente fallisce (es. deriva dello stato, scelta sbagliata di uno strumento), rendendo possibile il debug e l'audit dei sistemi autonomi.
Sicurezza e Affidabilità: Per applicazioni critiche (sanità, finanza), la capacità di tracciare la coerenza dello stato e la correttezza delle azioni nel tempo è fondamentale per garantire la sicurezza e la fiducia nei sistemi AI agentic.

In conclusione, gli autori sostengono che la futura ricerca sull'XAI deve focalizzarsi sullo sviluppo di framework di spiegazione a livello di traiettoria, integrando segnali di verifica e diagnosi dei fallimenti direttamente nel ciclo di vita degli agenti autonomi.

From Features to Actions: Explainability in Traditional and Agentic AI Systems

🧠 Il Grande Cambio di Paradigma: Dal "Fotografo" al "Viaggiatore"

🕵️‍♂️ La Scoperta: Non basta guardare la foto finale

📊 I Risultati in Pillole (con analogie)

🚀 Perché è importante? (La Morale della Favola)

💡 Conclusione Semplificata

1. Il Problema

2. Metodologia

3. Contributi Chiave

4. Risultati Principali

5. Significato e Implicazioni

Articoli simili

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach