Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Problème : La Boîte Noire des Transformers

Imaginez que les modèles d'intelligence artificielle modernes (comme ceux qui écrivent des textes, traduisent ou analysent des images) soient de géants très intelligents mais silencieux. On les appelle des "Transformers".

Le problème, c'est que quand le géant prend une décision (par exemple : "Ce film est nul" ou "Cette image représente un chat"), il le fait en passant l'information à travers 12 étages de salles de réflexion. À chaque étage, il transforme légèrement le message.

Le souci actuel ? Les méthodes existantes pour comprendre pourquoi il a pris cette décision sont comme des caméras de surveillance installées uniquement à la sortie du bâtiment. Elles voient le résultat final, mais elles ne savent pas ce qui s'est passé dans les étages intermédiaires. Elles ne voient pas comment les idées ont évolué, ni comment les mots se sont "parlés" entre eux pour former la conclusion.

💡 La Solution : CA-LIG (Le Guide Touristique Intérieur)

Les auteurs de ce papier, Melkamu et Jugal, ont inventé une nouvelle méthode appelée CA-LIG.

Imaginez que vous vouliez comprendre comment un géant construit une tour de Lego.

Les anciennes méthodes vous disent : "Regardez la tour finie, ces briques rouges sont importantes."
La méthode CA-LIG, elle, vous donne un guide touristique qui vous emmène visiter chaque étage de la construction, de la base jusqu'au sommet.

Voici comment cela fonctionne, étape par étape, avec des analogies :

1. L'Exploration Étage par Étage (Intégration par Couches)

Au lieu de regarder seulement le dernier étage, CA-LIG regarde chaque étage du Transformer.

L'analogie : Imaginez que vous suivez un message qui voyage dans un train. Les anciennes méthodes regardent seulement le message quand il arrive à la gare finale. CA-LIG, elle, regarde le message à chaque arrêt de train. Elle voit comment le message change de forme, s'affine et devient plus clair à chaque station.

2. Le Contexte est Roi (Attention aux Relations)

Les Transformers ne regardent pas juste les mots isolément. Ils regardent comment les mots se connectent (ex: "pas" + "bon" = "mauvais").

L'analogie : Imaginez un dîner où tout le monde discute.
- Une méthode simple dirait : "Le mot 'bon' est important."
- CA-LIG dit : "Le mot 'bon' est important, MAIS seulement parce qu'il est suivi par 'pas' plus loin dans la phrase. Sans le 'pas', le 'bon' ne veut rien dire ici."
- CA-LIG utilise une sorte de radar de relations pour voir qui parle à qui, et comment ces conversations influencent la décision finale.

3. La Fusion des Preuves (Le Tableau de Bord)

Le système combine deux types d'informations :

L'importance directe (Ce mot est-il crucial ?).
L'importance relationnelle (Ce mot change-t-il le sens des autres mots ?).

L'analogie : C'est comme un détective qui assemble des pièces de puzzle. Certaines pièces sont importantes par elles-mêmes (une empreinte digitale), d'autres le sont parce qu'elles relient deux autres pièces (un fil conducteur). CA-LIG assemble tout cela pour créer une carte complète de la "pensée" du modèle.

🎨 Ce que cela donne en pratique ?

Les auteurs ont testé leur méthode sur plusieurs terrains de jeu :

Analyse de sentiments (IMDB) : Pour un avis de film, CA-LIG ne s'arrête pas juste au mot "nul". Elle montre comment "c'est", "le", "film" et "nul" travaillent ensemble pour créer le sentiment négatif. Elle évite de se tromper en mettant trop d'importance sur des mots vides comme "le" ou "ce".
Langues rares (Amharic) : Même dans des langues avec peu de données, la méthode fonctionne bien, montrant qu'elle comprend la structure profonde du langage, pas juste la fréquence des mots.
Images (Vision) : Pour reconnaître un chat, CA-LIG ne se contente pas de dire "il y a des poils". Elle identifie précisément les oreilles, les yeux et le museau comme étant les éléments clés, tout en ignorant le fond de l'image. Elle comprend que c'est la relation entre ces parties qui définit le chat.

🏆 Pourquoi c'est une révolution ?

Avant, on avait des explications un peu floues ou incomplètes, comme regarder un film en accéléré et seulement à la fin.

Avec CA-LIG, on obtient :

La vérité (Fidélité) : L'explication correspond vraiment à ce que le modèle a pensé, pas à ce qu'on imagine qu'il a pensé.
La clarté (Contexte) : On voit les liens entre les idées, pas juste une liste de mots importants.
La transparence (Confiance) : On peut voir comment le modèle a raisonné, étape par étape, ce qui permet de mieux lui faire confiance ou de repérer ses erreurs.

En résumé

Ce papier propose un nouvel outil de radiographie pour l'intelligence artificielle. Au lieu de regarder seulement la peau (la réponse finale), il permet de voir l'intérieur des os et des muscles (les couches de traitement) pour comprendre exactement comment l'IA "réfléchit" et prend ses décisions. C'est un pas de géant vers des IA plus transparentes et compréhensibles pour les humains.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles basés sur l'architecture Transformer (comme BERT, GPT, T5) ont atteint des performances de pointe dans de nombreux domaines (NLP, vision par ordinateur). Cependant, leur nature profondément hiérarchique et non linéaire les rend fondamentalement opaques ("boîtes noires").

Les méthodes d'explicabilité (XAI) existantes souffrent de trois limitations majeures :

Biais vers la couche finale : La plupart des techniques (comme les Gradients Intégrés classiques) ne génèrent des explications qu'au niveau de la couche de sortie, ignorant comment l'information sémantique et contextuelle évolue à travers les couches intermédiaires.
Manque d'unification locale-globale : Les méthodes se concentrent soit sur la pertinence locale des tokens (gradients), soit sur les interactions structurelles globales (mécanismes d'attention), sans intégrer ces deux perspectives dans une représentation cohérente.
Insuffisance de la conscience contextuelle : Les approches actuelles négligent souvent les dépendances inter-tokens, les connexions résiduelles et les transformations feed-forward, qui sont pourtant au cœur du raisonnement des Transformers. De plus, les poids d'attention bruts ne reflètent pas fidèlement le processus de décision du modèle.

2. Méthodologie : Le Framework CA-LIG

Pour surmonter ces limites, les auteurs proposent le framework CA-LIG (Context-Aware Layer-wise Integrated Gradients). Il s'agit d'une méthode d'attribution hiérarchique et unifiée qui calcule des gradients intégrés à chaque bloc Transformer et les fusionne avec des gradients d'attention spécifiques à la classe.

Le processus se décompose en quatre étapes principales :

A. Pertinence Token par Token via Gradients Intégrés par Couche (LIG)

Au lieu d'appliquer les Gradients Intégrés (IG) uniquement à la sortie, le framework calcule des attributions à chaque couche $l$ du Transformer.

Pour une couche donnée, on définit une trajectoire d'interpolation entre une représentation de base (baseline) $x'(l)$ et la représentation réelle $x(l)$ .
On calcule l'intégrale des gradients de la score de la classe cible $y_c$ par rapport aux états cachés intermédiaires le long de cette trajectoire.
Cela produit une carte d'attribution signée (valeurs positives pour le soutien, négatives pour l'opposition) qui respecte la propriété de complétude (la somme des attributions égale la différence de score entre l'entrée et la base).

B. Calcul du Gradient d'Attention par Bloc

Pour capturer les interactions contextuelles, le framework calcule le gradient de la score de sortie par rapport à la matrice d'attention $A^{(b)}$ de chaque bloc $b$ .

Cela permet de mesurer la sensibilité de la prédiction aux changements dans les poids d'attention entre les tokens.
Un gradient d'attention élevé indique qu'une connexion spécifique entre deux tokens influence fortement la décision de la classe cible.

C. Fusion Contextuelle (Attention-Relevance)

Les deux signaux (pertinence des tokens via LIG et sensibilité structurelle via les gradients d'attention) sont fusionnés.

Une normalisation Symmetric Min-Max est appliquée aux scores de pertinence des tokens.
Une fusion élément par élément (produit de Hadamard) pondère les gradients d'attention par l'importance relative des tokens.
Un coefficient de fusion $\lambda$ permet de régler l'équilibre entre l'information de sensibilité de l'attention et la pertinence des tokens d'entrée.

D. Agrégation et Propagation (Rollout)

Pour obtenir une carte d'attribution unifiée, les matrices d'attention pondérées par la pertinence sont multipliées récursivement à travers toutes les couches (de la première à la dernière).

Cela permet de tracer le flux d'information et d'accumuler l'influence contextuelle à travers toute la hiérarchie du modèle.
Le résultat final est une carte d'attribution signée ( $C^+$ pour les preuves de soutien, $C^-$ pour les influences inhibitrices) qui capture à la fois la contribution locale et les dépendances structurelles globales.

3. Contributions Clés

Framework Hiérarchique Unifié : Première méthode à calculer des attributions à chaque couche Transformer, révélant l'évolution de la pertinence des tokens au lieu de se limiter à la sortie finale.
Mécanisme de Fusion Gradient-Attention : Intégration des gradients de pertinence (IG) avec les gradients d'attention pour capturer à la fois l'importance locale des tokens et les motifs d'interaction globaux.
Conscience Contextuelle Renforcée : Respect de la conservation de la pertinence à travers les mécanismes d'attention multi-têtes et les connexions résiduelles, offrant des explications plus fidèles à la structure interne du modèle.
Évaluation Transversale : Validation empirique sur des tâches variées (analyse de sentiments, détection de discours haineux en langues peu dotées, classification de documents longs) et sur des architectures différentes (BERT, XLM-R, AfroLM, Vision Transformers/MAE).

4. Résultats Expérimentaux

Les auteurs ont évalué CA-LIG sur plusieurs jeux de données (IMDB, 20 Newsgroups, données de haine en amharique, CIFAR-10, ASIRRA) et comparé leur méthode à des baselines établies (IG, LRP, Attention Rollout, Input × Gradient).

Qualitatif :
- CA-LIG produit des visualisations plus nettes et sémantiquement cohérentes. Contrairement aux méthodes basées uniquement sur l'attention qui attribuent une pertinence uniforme, CA-LIG identifie précisément les tokens porteurs de sens (ex: "amazing", "worst") et les paires de concepts liés à travers des clauses distantes.
- Dans les tâches de vision (MAE), CA-LIG se concentre sur des régions sémantiquement pertinentes (ex: yeux, museau d'un chat) plutôt que sur du bruit de fond, contrairement aux méthodes comme Grad-CAM ou LRP.
- Le framework évite la domination des tokens spéciaux (comme [CLS]) en redistribuant la pertinence sur les tokens contextuellement interactifs.
Quantitatif :
- F1-Token : Sur le benchmark ERASER (Movie Reviews), CA-LIG obtient des scores F1 supérieurs aux méthodes de base, indiquant un meilleur chevauchement avec les rationales humaines annotées.
- Fiabilité (Perturbation) : Sur les tâches de vision, l'évaluation par AUC (Insertion/Suppression) montre que CA-LIG est plus fidèle : l'ajout des patches les plus importants augmente rapidement la confiance du modèle, tandis que leur suppression la fait chuter plus vite que pour les autres méthodes.
Analyse par Couche :
- L'étude de cas sur les couches révèle que CA-LIG capture la progression hiérarchique : les premières couches traitent la syntaxe, les couches intermédiaires la sémantique contextuelle, et les couches profondes consolident la décision. Les pics de sensibilité observés correspondent aux changements de représentation décrits dans la littérature.

5. Signification et Conclusion

L'article démontre que l'explicabilité des Transformers nécessite une approche qui dépasse la simple visualisation de la couche finale ou des poids d'attention.

Avancée Conceptuelle : CA-LIG établit que la fidélité des explications dépend de la capacité à tracer le flux de pertinence à travers la hiérarchie du modèle et à intégrer les dépendances structurelles (attention) avec les contributions locales (gradients).
Généralité : La méthode fonctionne aussi bien pour le NLP (y compris les langues peu dotées) que pour la vision par ordinateur, prouvant que la "conscience contextuelle" est un besoin universel pour l'explicabilité des modèles profonds.
Impact Pratique : En fournissant des cartes d'attribution signées, cohérentes et fidèles, CA-LIG aide les chercheurs et les praticiens à déboguer les modèles, à calibrer la confiance et à comprendre les mécanismes de raisonnement interne des modèles Transformer.

Bien que le coût computationnel soit plus élevé que les méthodes de couche unique (en raison du calcul par couche), les auteurs jugent ce compromis justifié pour obtenir des explications plus riches et plus fiables, particulièrement pour l'audit de modèles et l'analyse d'erreurs.