What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre pourquoi un ami très intelligent, mais très silencieux, a choisi de manger une pomme plutôt qu'une banane.

Les Vision Transformers (ViT) sont comme ce ami : ils sont incroyablement forts pour reconnaître des images (comme distinguer un chat d'un chien), mais leur cerveau est une "boîte noire". On voit le résultat, mais on ne sait pas pourquoi ils ont pris cette décision.

Les méthodes actuelles pour les expliquer sont un peu comme demander à l'ami : "Qu'est-ce que tu as aimé ?" et il répond seulement : "J'ai aimé la pomme." Mais il oublie de dire : "Et j'ai détesté la banane !"

Voici comment le papier BiCAM change la donne, expliqué simplement :

1. Le Problème : On ne voit que la moitié de l'histoire

Jusqu'à présent, les outils d'explication (comme les cartes de chaleur) ne montraient que ce qui aidait le modèle à prendre sa décision (les preuves positives). C'est comme si un détective ne vous disait que les indices qui accusent un suspect, sans jamais mentionner les indices qui le disculpent.

2. La Solution : BiCAM, le détective à double sens

Les auteurs (Qin Su et Tie Luo) ont créé BiCAM. Imaginez que BiCAM est un détective qui utilise deux types de lunettes :

Des lunettes rouges pour voir ce qui aide le modèle (ex: "Ah, les oreilles pointues confirment que c'est un chat").
Des lunettes bleues pour voir ce qui empêche le modèle de se tromper (ex: "Attends, ce n'est pas un chien parce qu'il n'a pas de museau long").

L'analogie du tableau blanc :
Imaginez un tableau blanc.

Les méthodes anciennes effacent tout ce qui est écrit en bleu (les négatifs) et ne gardent que le rouge. Le résultat est incomplet.
BiCAM garde les deux. Il vous montre : "Le modèle a vu le chat (rouge) ET il a activement ignoré le chien (bleu)." Cela donne une explication beaucoup plus riche et contrastée.

3. Comment ça marche ? (La recette magique)

Au lieu de regarder chaque couche du cerveau du modèle (ce qui est lent et bruyant), BiCAM est malin :

Il se concentre uniquement sur les dernières couches, là où la décision finale est prise (comme regarder le verdict final d'un juge plutôt que tous les brouillons).
Il ne jette aucun chiffre négatif. Si un pixel "négatif" aide à rejeter une fausse piste, BiCAM le note soigneusement.
Le tout se fait très vite, en une seule passe, sans avoir besoin d'entraîner le modèle à nouveau.

4. L'astuce secrète : Le "Ratio Positif/Négatif" (PNR)

C'est la partie la plus cool pour la sécurité. Les auteurs ont inventé un petit compteur appelé PNR.

L'analogie du chef d'orchestre :

Une image normale (saine) : C'est comme un chef d'orchestre bien réglé. Les musiciens qui jouent la bonne note (rouge) sont forts, et ceux qui doivent se taire (bleu) sont silencieux. L'équilibre est stable.
Une image piratée (attaque adversaire) : C'est comme si quelqu'un avait mis du bruit dans l'orchestre. Les musiciens qui devraient se taire commencent à crier, ou les bons musiciens jouent faux. L'équilibre est brisé.

Le PNR mesure ce déséquilibre. Si le ratio est bizarre, le système sait immédiatement : "Hé, cette image a été trafiquée !" Et le plus beau ? Il le détecte sans avoir besoin d'apprendre à reconnaître les piratages. C'est comme un détecteur de mensonge instantané.

En résumé

Ce papier nous dit que pour vraiment comprendre l'intelligence artificielle, il ne suffit pas de regarder ce qu'elle aime. Il faut aussi regarder ce qu'elle rejette.

Avant : "Le modèle a vu un chat." (Explication partielle).
Avec BiCAM : "Le modèle a vu un chat, et il a activement écarté l'idée que ce soit un chien ou un lion." (Explication complète et honnête).

C'est une avancée majeure pour rendre les IA plus transparentes, plus fiables et plus sûres, surtout dans des domaines importants comme la médecine ou la sécurité.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Vision Transformers (ViT) ont démontré des performances exceptionnelles dans des tâches de vision par ordinateur telles que la classification, la détection d'objets et la segmentation. Cependant, leur processus de prise de décision reste une "boîte noire" difficile à interpréter.

Les méthodes d'interprétabilité existantes pour les ViT souffrent de plusieurs limitations majeures :

Perte des signaux négatifs : La plupart des méthodes basées sur les cartes d'activation de classe (CAM) ou les dérivées (comme Grad-CAM adapté) éliminent les valeurs négatives (souvent par une opération ReLU), considérant uniquement les contributions "positives" ou "supportives". Cela ignore le rôle crucial des régions qui suppriment ou inhibent une prédiction.
Sur-lissage (Over-smoothing) : Les méthodes basées sur l'attention pure (comme Attention Rollout) tendent à lisser excessivement les différences entre les tokens, rendant les cartes d'attention peu informatives.
Coût computationnel : Certaines approches (comme les méthodes basées sur Shapley) nécessitent un réentraînement coûteux ou des passes multiples, ce qui les rend peu pratiques pour un déploiement réel.

L'objectif de cet article est de combler ces lacunes en proposant une méthode capable de capturer à la fois les preuves supportives (pourquoi le modèle prédit une classe) et suppressives (pourquoi il rejette d'autres classes), tout en restant efficace.

2. Méthodologie : BiCAM

Les auteurs proposent BiCAM (Bidirectional Class Activation Mapping), une méthode d'attribution bidirectionnelle conçue spécifiquement pour les architectures ViT.

A. Agrégation Stratégique des Couches

Contrairement aux méthodes qui agrègent les signaux sur toutes les couches du réseau, BiCAM se concentre uniquement sur les couches profondes (les derniers blocs du Transformer).

Justification théorique : Les informations discriminatives pour la classe se concentrent dans les couches supérieures, tandis que les couches inférieures contiennent principalement du bruit structurel de bas niveau.
Implémentation : BiCAM sélectionne les $\ell$ dernières couches (où $\ell = 2L/3$ , $L$ étant le nombre total de couches) pour l'agrégation, filtrant ainsi le bruit des couches initiales.

B. Mécanisme d'Attribution Bidirectionnelle

Le cœur de BiCAM réside dans la préservation des signes (positifs et négatifs) des contributions tout au long du pipeline, sans appliquer de ReLU ni de clipping.

Extraction : Pour chaque couche sélectionnée, le modèle extrait les cartes d'attention ( $A$ ), les projections de valeurs ( $V$ ) et les gradients de la classe cible par rapport au token [CLS] ( $\partial y_c / \partial o_{cls}$ ).
Calcul : Les cartes d'attribution sont calculées en combinant les gradients et les valeurs, modulées par l'attention.
- Les valeurs positives indiquent des régions qui augmentent le score de la classe (preuves supportives).
- Les valeurs négatives indiquent des régions qui diminuent le score de la classe (preuves suppressives).
Agrégation : Les masques de chaque couche sont simplement sommés (et non multipliés récursivement), préservant l'indépendance des contributions de chaque couche.

C. Ratio Positif/Négatif (PNR) pour la Détection d'Adversaires

Les auteurs introduisent une métrique simple dérivée de BiCAM : le Positive-to-Negative Ratio (PNR).

Hypothèse : Les échantillons "propres" (clean) présentent un équilibre spatial structuré entre les zones positives et négatives alignées sur les régions sémantiques. Les attaques adverses (PGD, C&W, MI-FGSM) perturbent cet équilibre, créant des réponses dispersées ou exagérées.
Formule : $PNR = \frac{\sum \text{ReLU}(M_i)}{\sum \text{ReLU}(-M_i) + \epsilon}$ .
Utilisation : La différence de PNR ( $\Delta PNR$ ) entre un échantillon adversaire et un échantillon propre sert de signal de détection léger, sans nécessiter de réentraînement du modèle.

3. Contributions Clés

BiCAM : Une méthode d'attribution bidirectionnelle qui génère des cartes contrastives (rouge pour le support, bleu pour la suppression) en une seule passe avant-arrière (forward-backward pass).
Stratégie d'Agrégation : Une approche principielle qui cible les couches profondes du Transformer pour maximiser l'information discriminative tout en réduisant le bruit.
Détection d'Adversaires (PNR) : Introduction d'une métrique légère permettant de détecter des attaques adverses en exploitant la perturbation de l'équilibre bidirectionnel des attributions.
Généralisation : La méthode est applicable à diverses variantes de ViT (DeiT, Swin) avec des modifications minimales.

4. Résultats Expérimentaux

Les évaluations ont été menées sur ImageNet, VOC 2012 et COCO 2017, en comparant BiCAM avec des méthodes de référence (Attention Rollout, LRP-based CAM, AG-CAM, ViT-Shapley).

A. Performance de Localisation

ImageNet : BiCAM obtient les meilleurs scores de IoU (0.5419), F1 (0.6624) et Rappel (0.9288) parmi toutes les méthodes testées.
VOC et COCO : Dans les scènes multi-objets, BiCAM (Positif) surpasse tous les baselines. De plus, BiCAM (Négatif) démontre une capacité à localiser des régions sémantiquement significatives qui s'opposent à la classe cible, une capacité absente chez les autres méthodes.

B. Fidélité (Faithfulness)

Mesurée par l'expérience de suppression de patches (MIF/LIF). BiCAM obtient les scores de fidélité les plus élevés sur tous les jeux de données, indiquant une meilleure corrélation entre l'importance attribuée et le comportement réel du modèle.

C. Détection d'Adversaires

L'utilisation du $\Delta PNR$ permet une détection efficace des attaques PGD, C&W et MI-FGSM.
Résultats : Sur VOC 2012, le PNR atteint un AUROC de 0.796 et un AUPR de 0.763 en moyenne, prouvant que les perturbations adverses déstabilisent l'équilibre bidirectionnel des attributions.

D. Efficacité Computationnelle

BiCAM est 8,4 fois plus rapide que la méthode LRP (16 ms/image contre 134 ms/image sur RTX 4090) et ne nécessite aucun temps de réentraînement, contrairement à ViT-Shapley.

5. Signification et Conclusion

Cet article met en évidence l'importance cruciale de modéliser les deux faces de l'évidence (supportive et suppressive) pour interpréter les modèles basés sur les Transformers.

Interprétabilité : En conservant les signaux négatifs, BiCAM offre une explication plus complète et contrastive, révélant non seulement ce que le modèle "voit", mais aussi ce qu'il "rejette".
Sécurité : La découverte que les attaques adverses perturbent l'équilibre PNR ouvre une nouvelle voie pour la détection d'attaques sans coût de calcul supplémentaire significatif.
Avenir : Les auteurs suggèrent que l'attribution bidirectionnelle est une dimension sous-exploitée qui pourrait mener à des améliorations architecturales et à une meilleure robustesse dans les applications à haut risque.

En résumé, BiCAM représente une avancée significative vers une IA explicable plus fiable et plus nuancée pour les modèles de vision modernes.