What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Ce papier présente BiCAM, une méthode d'activation de classe bidirectionnelle pour les Vision Transformers qui capture à la fois les contributions positives et négatives afin d'améliorer l'interprétabilité et de détecter les exemples adverses sans réentraînement.

Qin Su, Tie Luo

Publié 2026-03-04
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre pourquoi un ami très intelligent, mais très silencieux, a choisi de manger une pomme plutôt qu'une banane.

Les Vision Transformers (ViT) sont comme ce ami : ils sont incroyablement forts pour reconnaître des images (comme distinguer un chat d'un chien), mais leur cerveau est une "boîte noire". On voit le résultat, mais on ne sait pas pourquoi ils ont pris cette décision.

Les méthodes actuelles pour les expliquer sont un peu comme demander à l'ami : "Qu'est-ce que tu as aimé ?" et il répond seulement : "J'ai aimé la pomme." Mais il oublie de dire : "Et j'ai détesté la banane !"

Voici comment le papier BiCAM change la donne, expliqué simplement :

1. Le Problème : On ne voit que la moitié de l'histoire

Jusqu'à présent, les outils d'explication (comme les cartes de chaleur) ne montraient que ce qui aidait le modèle à prendre sa décision (les preuves positives). C'est comme si un détective ne vous disait que les indices qui accusent un suspect, sans jamais mentionner les indices qui le disculpent.

2. La Solution : BiCAM, le détective à double sens

Les auteurs (Qin Su et Tie Luo) ont créé BiCAM. Imaginez que BiCAM est un détective qui utilise deux types de lunettes :

  • Des lunettes rouges pour voir ce qui aide le modèle (ex: "Ah, les oreilles pointues confirment que c'est un chat").
  • Des lunettes bleues pour voir ce qui empêche le modèle de se tromper (ex: "Attends, ce n'est pas un chien parce qu'il n'a pas de museau long").

L'analogie du tableau blanc :
Imaginez un tableau blanc.

  • Les méthodes anciennes effacent tout ce qui est écrit en bleu (les négatifs) et ne gardent que le rouge. Le résultat est incomplet.
  • BiCAM garde les deux. Il vous montre : "Le modèle a vu le chat (rouge) ET il a activement ignoré le chien (bleu)." Cela donne une explication beaucoup plus riche et contrastée.

3. Comment ça marche ? (La recette magique)

Au lieu de regarder chaque couche du cerveau du modèle (ce qui est lent et bruyant), BiCAM est malin :

  • Il se concentre uniquement sur les dernières couches, là où la décision finale est prise (comme regarder le verdict final d'un juge plutôt que tous les brouillons).
  • Il ne jette aucun chiffre négatif. Si un pixel "négatif" aide à rejeter une fausse piste, BiCAM le note soigneusement.
  • Le tout se fait très vite, en une seule passe, sans avoir besoin d'entraîner le modèle à nouveau.

4. L'astuce secrète : Le "Ratio Positif/Négatif" (PNR)

C'est la partie la plus cool pour la sécurité. Les auteurs ont inventé un petit compteur appelé PNR.

L'analogie du chef d'orchestre :

  • Une image normale (saine) : C'est comme un chef d'orchestre bien réglé. Les musiciens qui jouent la bonne note (rouge) sont forts, et ceux qui doivent se taire (bleu) sont silencieux. L'équilibre est stable.
  • Une image piratée (attaque adversaire) : C'est comme si quelqu'un avait mis du bruit dans l'orchestre. Les musiciens qui devraient se taire commencent à crier, ou les bons musiciens jouent faux. L'équilibre est brisé.

Le PNR mesure ce déséquilibre. Si le ratio est bizarre, le système sait immédiatement : "Hé, cette image a été trafiquée !" Et le plus beau ? Il le détecte sans avoir besoin d'apprendre à reconnaître les piratages. C'est comme un détecteur de mensonge instantané.

En résumé

Ce papier nous dit que pour vraiment comprendre l'intelligence artificielle, il ne suffit pas de regarder ce qu'elle aime. Il faut aussi regarder ce qu'elle rejette.

  • Avant : "Le modèle a vu un chat." (Explication partielle).
  • Avec BiCAM : "Le modèle a vu un chat, et il a activement écarté l'idée que ce soit un chien ou un lion." (Explication complète et honnête).

C'est une avancée majeure pour rendre les IA plus transparentes, plus fiables et plus sûres, surtout dans des domaines importants comme la médecine ou la sécurité.