From Features to Actions: Explainability in Traditional and Agentic AI Systems

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De la Photo Statique au Film d'Action : Pourquoi l'IA a besoin d'un nouveau type de "Détective"

Imaginez que vous essayez de comprendre comment fonctionne un génie de l'intelligence artificielle (IA). Pendant dix ans, les chercheurs ont utilisé une méthode très précise, mais qui a un gros défaut : elle regarde une seule photo du génie au moment où il donne une réponse.

Mais aujourd'hui, les IA ne font plus que répondre à des questions. Elles deviennent des agents autonomes : elles planifient, utilisent des outils, font des recherches, se trompent, se corrigent et agissent sur le monde réel (comme réserver un billet d'avion ou gérer un dossier médical). C'est comme passer d'une photo à un film d'action complet.

Ce papier de recherche explique pourquoi les anciennes méthodes pour comprendre l'IA ne fonctionnent plus pour ces nouveaux "agents", et propose une nouvelle façon de les examiner.

📸 1. L'Ancienne Méthode : Le Détective de la "Photo" (IA Statique)

Prenons l'exemple d'un IA qui doit dire si une offre d'emploi est pour un informaticien ou non.

La méthode : On utilise des outils comme SHAP ou LIME. C'est comme si le détective regardait la photo finale et disait : "Ah, j'ai vu les mots 'Python' et 'Serveur', donc c'est pour un informaticien."
Le problème : C'est très bien pour une photo. Mais si l'IA doit faire 50 étapes pour réserver un vol, cette méthode ne voit que le résultat final. Elle ne sait pas comment l'IA est arrivée là. Elle ne voit pas si l'IA a fait une erreur à l'étape 3, puis a essayé de la cacher à l'étape 10.

L'analogie : C'est comme essayer de comprendre pourquoi un joueur d'échecs a perdu en regardant uniquement la position finale des pièces sur l'échiquier. Vous ne saurez jamais quel coup fatal a été joué il y a 20 tours.

🎬 2. La Nouvelle Méthode : Le Détective du "Film" (IA Agente)

Les nouveaux agents IA (comme ceux qui utilisent des outils pour naviguer sur le web) ne font pas une seule action. Ils vivent une trajectoire :

Ils observent.
Ils réfléchissent.
Ils agissent (appellent un outil).
Ils voient le résultat.
Ils recommencent.

Si l'agent échoue, ce n'est pas à cause d'un seul mot, mais à cause d'une chaîne d'événements.

La solution proposée : Au lieu de regarder les "mots" (comme avant), les chercheurs proposent de regarder le film complet (l'historique d'exécution). Ils utilisent une "grille d'évaluation" (un ruban de contrôle) pour vérifier à chaque étape :

Est-ce que l'agent a bien compris son but ?
Est-ce qu'il a utilisé le bon outil ?
Est-ce qu'il a gardé le fil de sa mémoire ?

🧪 Ce que les chercheurs ont découvert (Les Résultats)

Ils ont comparé les deux méthodes sur des tâches réelles (réserver un vol, naviguer sur le web). Voici ce qu'ils ont vu :

🏆 Pour les tâches simples (Photos)

Les anciennes méthodes fonctionnent très bien. Elles sont stables et fiables. Si vous changez un peu la photo, l'explication reste la même. C'est comme un bon résumé de livre.

🚨 Pour les agents autonomes (Films)

Les anciennes méthodes échouent lamentablement.

Le problème : Si vous demandez à l'IA "Pourquoi as-tu échoué ?", les anciennes méthodes vous disent : "Eh bien, le mot 'annuler' était important." Mais cela ne vous dit pas où et quand l'erreur s'est produite.
La découverte clé : En regardant le "film" (la trajectoire), ils ont trouvé deux types d'échecs :
1. L'échec lent (Type "Avion") : L'agent commence bien, mais il perd peu à peu le fil de sa mémoire. Il oublie qu'il a déjà réservé un siège, ou il se trompe sur la date. C'est une incohérence d'état. Comme un conducteur qui oublie qu'il a pris un virage à gauche et continue tout droit, jusqu'à ce qu'il soit perdu.
2. L'échec rapide (Type "Web") : L'agent fait un seul mauvais choix au début (comme choisir le mauvais outil) et c'est fini. C'est comme un joueur de tennis qui rate son service au premier coup : le point est perdu immédiatement.

Le chiffre choc : Les chercheurs ont découvert que dans les échecs d'agents, le problème de mémoire incohérente (oublier ce qu'on a fait) est 2,7 fois plus fréquent que dans les réussites, et cela réduit les chances de succès de près de 50 %.

🎒 La Nouvelle Boîte à Outils : Le "MEP"

Pour résoudre ce problème, les auteurs inventent un nouveau concept : le MEP (Minimal Explanation Packet), ou "Paquet d'Explication Minimal".

Imaginez que vous ne donnez pas juste une explication à un juge, mais que vous lui donnez un dossier complet :

L'explication : "L'agent a échoué."
La preuve (le contexte) : "Voici le film complet, ici il a utilisé le mauvais outil, et ici il a oublié sa date."
Le tampon de vérification : "Nous avons revu le film, et c'est confirmé : l'erreur vient de l'étape 4."

C'est comme passer d'un simple avis ("Ce film est nul") à un rapport d'expert détaillé ("Le réalisateur a coupé la scène 3, ce qui rend l'intrigue incompréhensible").

💡 En résumé : Pourquoi c'est important ?

Ce papier nous dit qu'il faut arrêter de traiter les IA avancées comme de simples "boîtes noires" qui donnent une réponse. Elles sont des acteurs qui jouent un rôle sur une longue durée.

Avant : On demandait "Pourquoi cette réponse ?" (Focus sur le résultat).
Maintenant : On doit demander "Comment l'agent a-t-il agi, où s'est-il trompé, et comment a-t-il réagi ?" (Focus sur le processus).

C'est crucial pour la sécurité. Si une IA médicale ou financière fait une erreur, on ne veut pas juste savoir qu'elle a échoué, on veut savoir exactement à quel moment de son processus de réflexion elle a dévié, pour pouvoir la réparer et la faire confiance.

La morale de l'histoire : Pour comprendre un agent IA, il ne suffit pas de regarder la destination finale. Il faut regarder le trajet, vérifier la carte, et s'assurer que le conducteur n'a pas perdu le nord en cours de route.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'article identifie un fossé fondamental entre les méthodes d'explicabilité de l'IA (XAI) existantes et les nouveaux systèmes d'IA agentic (agents autonomes basés sur les grands modèles de langage ou LLM).

Le contexte traditionnel : La XAI classique se concentre sur l'interprétation de prédictions statiques (entrée $\to$ sortie unique). Les méthodes comme SHAP, LIME ou les cartes de saillance attribuent l'importance à des caractéristiques d'entrée (features) pour expliquer un résultat ponctuel.
Le défi agentic : Les agents LLM opèrent via des trajectoires : des séquences d'observations, de décisions, d'appels d'outils et de mises à jour d'état qui s'étendent sur plusieurs étapes. Le succès ou l'échec dépend de la cohérence de toute la séquence, et non d'une seule inférence.
Le problème central : Les méthodes d'attribution de caractéristiques (feature attribution) conçues pour des prédictions statiques sont inadéquates pour diagnostiquer les échecs dans les trajectoires agentic. Elles ne peuvent pas localiser où et pourquoi un agent a échoué (ex: incohérence d'état, mauvais choix d'outil) au sein d'une séquence complexe.

2. Méthodologie

Les auteurs proposent une approche comparative et un nouveau cadre conceptuel pour combler ce fossé.

A. Distinction Conceptuelle et Cadre MEP

L'article introduit la notion de Minimal Explanation Packet (MEP) (Paquet d'Explication Minimal) pour formaliser ce qui est nécessaire pour expliquer un système.

MEP Statique : Artéfact (ex: attribution SHAP) + Contexte (entrée unique) + Vérification (stabilité).
MEP Agentic : Artéfact (trace d'exécution) + Contexte (séquence d'états, actions, observations, logs d'outils) + Vérification (signaux de fidélité basés sur des règles).

B. Taxonomie et Critères d'Évaluation

Les auteurs définissent quatre critères pour évaluer l'explicabilité dans les deux paradigmes :

Portée (Scope) : Niveau de prédiction vs niveau de trajectoire.
Ancrage (Grounding) : Lien aux caractéristiques d'entrée vs lien aux logs d'exécution et preuves observables.
Fiabilité/Fidélité (Reliability) : Stabilité sous perturbation vs vérification par rejeu et cohérence des règles.
Auditabilité : Inspection post-hoc vs localisation des échecs et rejeu étape par étape.

C. Expérimentation

L'étude compare deux approches sur deux types de tâches :

Tâche Statique : Classification binaire (publications d'emploi IT vs non-IT) utilisant des modèles classiques (TF-IDF + Régression Logistique, CNN). Méthodes testées : SHAP, LIME.
Tâche Agentic : Benchmarks TAU-bench Airline (réservation de vols via API) et AssistantBench (tâches d'assistance web).
- Méthode : Utilisation de traces d'exécution complètes.
- Analyse : Évaluation post-hoc via un juge LLM (GPT-5) appliquant des rubriques comportementales (ex: Alignement de l'intention, Cohérence de l'état, Exactitude du choix d'outil).
- Pont (Bridging) : Projection des trajectoires agentic en vecteurs binaires (respect/violation des règles) pour tester si SHAP peut ensuite prédire le succès/échec global.

3. Contributions Clés

Distinction Formelle : Établissement d'une séparation claire entre l'explicabilité pour les prédicteurs statiques et celle pour les systèmes agentic.
Taxonomie Croisée : Proposition d'une classification des cibles d'explication (du niveau des caractéristiques au niveau des comptes-rendus de trajectoire).
Preuve Empirique : Démonstration que les méthodes d'attribution échouent à diagnostiquer les échecs spécifiques dans les trajectoires, tandis que l'évaluation basée sur les traces (rubriques) réussit à localiser les défaillances opérationnelles.
Cadre MEP : Introduction du "Minimal Explanation Packet" comme unité standard pour packaging des explications, des preuves et des signaux de vérification.

4. Résultats Principaux

A. Performance Statique (Ligne de base)

Les méthodes d'attribution (SHAP, LIME) produisent des classements de caractéristiques stables dans les tâches statiques (corrélation de Spearman $\rho = 0.86$ ).
Elles identifient bien les facteurs globaux influents mais ne capturent pas la dynamique décisionnelle.

B. Performance Agente (Diagnostic d'échec)

Échec des attributions : Les méthodes d'attribution appliquées aux agents ne peuvent pas localiser de manière fiable la contrainte violée lors d'un échec spécifique. Elles fournissent des corrélations globales mais pas de diagnostic par exécution.
Efficacité des Rubriques (Trace-based) : L'évaluation basée sur les traces permet de localiser précisément les points de rupture.
- TAU-bench Airline : L'incohérence de suivi d'état (State Tracking Consistency) est le facteur prédictif d'échec le plus fort. Elle est 2,7 fois plus fréquente dans les échecs et réduit la probabilité de succès de 49 %. Cela indique un échec "lent" où les erreurs s'accumulent.
- AssistantBench : Les échecs sont souvent dus à des erreurs décisives et rares, notamment le choix d'outil incorrect (Tool Choice Accuracy). Une seule erreur de branchement peut bloquer toute la tâche (échec "rapide").

C. Expérience de Pont (Bridging)

Lorsqu'on projette les trajectoires agentic dans un espace de caractéristiques basé sur les rubriques (vecteurs binaires), SHAP peut identifier quelles règles sont globalement importantes pour le succès.
Limite : Cela reste une analyse corrélationnelle globale. Cela ne remplace pas le diagnostic causal d'une trajectoire spécifique.

5. Signification et Impact

Changement de Paradigme : L'article plaide pour un passage de l'explicabilité comme "artéfact statique" (pourquoi ce modèle a-t-il prédit X ?) à l'explicabilité comme "compte-rendu de comportement structuré" (pourquoi l'agent a-t-il échoué à l'étape 4 de sa trajectoire ?).
Sécurité et Audit : Pour les déploiements critiques (santé, finance), il est crucial de comprendre les échecs de trajectoire (dérive d'état, mauvaise récupération d'erreur) plutôt que de simples erreurs de sortie.
Fidélité : Les explications basées sur les traces, couplées à des vérifications de rejeu et des règles comportementales, offrent une base plus solide pour l'audit et le débogage que les simples visualisations d'attention ou d'attribution.
Recommandation Future : Les auteurs suggèrent que la recherche en XAI doit se concentrer sur des frameworks de diagnostic au niveau de la trajectoire, intégrant des vérifications de fidélité et des analyses contrefactuelles pour valider les hypothèses causales sur les échecs des agents autonomes.

En résumé, ce papier démontre que l'explicabilité pour les agents ne peut pas être une simple extension des méthodes statiques ; elle nécessite une refonte complète pour traiter le temps, l'état et les interactions séquentielles comme des éléments centraux du diagnostic.