Caption-Driven Explainability: Probing CNNs for Bias via CLIP

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective des Idées : Comment on a démasqué un "Tricheur" dans l'Intelligence Artificielle

Imaginez que vous avez un élève très brillant, mais un peu tricheur, qui passe un examen de reconnaissance d'images.

1. Le Problème : L'Élève qui triche sur les couleurs

Dans cet article, les chercheurs ont créé un modèle d'IA (un "élève") pour reconnaître des chiffres écrits à la main : le 5 et le 8.

L'astuce du tricheur : Pendant l'entraînement, ils ont fait une petite erreur (ou un piège). Tous les 5 étaient dessinés en rouge, et tous les 8 en vert.
Le résultat : L'IA a appris à dire "C'est un 5" non pas parce qu'elle reconnaissait la forme du chiffre, mais simplement parce qu'elle voyait la couleur rouge.
Le danger : Si on donne à cette IA un 5 vert dans la vraie vie, elle va paniquer et se tromper. C'est ce qu'on appelle un biais (une erreur de raisonnement) et un décalage de données (ce qu'elle a appris ne correspond pas à la réalité).

Les méthodes classiques pour voir où l'IA regarde (appelées "cartes de saillance") sont comme des lunettes de soleil : elles montrent que l'IA regarde l'image, mais elles ne disent pas pourquoi elle pense que c'est un 5. Elle regarde peut-être la couleur, ou la forme, et on ne sait pas trop.

2. La Solution : Le Chirurgien et le Traducteur

Pour résoudre ce mystère, les auteurs ont inventé une méthode géniale qu'ils appellent "l'Explicabilité par les Légendes" (Caption-Driven XAI).

Imaginez deux personnages :

L'IA Tricheuse (Le Modèle Standalone) : C'est notre élève qui regarde les images mais ne parle pas.
CLIP (Le Traducteur Polyglotte) : C'est une super-IA très intelligente qui a lu des millions de livres et vu des millions d'images. Elle comprend parfaitement le lien entre les mots (comme "rouge", "carré", "chiffre 5") et les images.

La "Chirurgie de Réseau" (Network Surgery) :
C'est ici que la magie opère. Les chercheurs font une opération délicate :

Ils prennent les "cerveaux" (les couches internes) de l'IA tricheuse.
Ils les greffent dans le cerveau de CLIP, le traducteur.
C'est comme si on donnait les yeux de l'élève tricheur au traducteur, tout en gardant la capacité du traducteur à comprendre les mots.

3. L'Expérience : Le Test de Vérité

Une fois greffé, le nouveau "Hybride" regarde les images et on lui demande de décrire ce qu'il voit en choisissant parmi plusieurs légendes (des phrases) :

"C'est un chiffre rouge"
"C'est un chiffre vert"
"C'est un chiffre en forme de 5"
"C'est un chiffre en forme de 8"

Le verdict :

Quand l'IA tricheuse (avec la couleur) regarde l'image, le système crie : "C'est ROUGE !" avec une force énorme. La forme du chiffre est ignorée.
Les chercheurs changent alors les données : ils enlèvent les couleurs (images en noir et blanc) et réentraînent l'IA.
Ils refont la greffe. Cette fois, le système crie : "C'est la FORME du 5 !".

4. Pourquoi c'est génial ? (L'Analogie du Détective)

Les anciennes méthodes (les cartes de saillance) étaient comme un détective qui vous dit : "Le suspect était dans la pièce" (en pointant l'image).
Cette nouvelle méthode est comme un détective qui vous dit : "Le suspect était dans la pièce, et il portait un chapeau rouge, donc il a été confondu avec le coupable à cause du chapeau, pas de son visage."

Les avantages clés :

Démasquer les tricheurs : On peut voir exactement sur quoi l'IA se base (la couleur, la texture, la forme).
Sécurité avant le déploiement : Avant de mettre une IA dans un hôpital ou une voiture autonome, on peut utiliser cette méthode pour s'assurer qu'elle ne triche pas sur des détails inutiles.
Robustesse : Si on sait que l'IA triche sur la couleur, on peut la corriger (en enlevant la couleur) pour qu'elle apprenne la vraie leçon (la forme).

En résumé

Ce papier nous dit : "Ne faites pas confiance aveuglément à une IA qui a de bons résultats. Utilisez cette nouvelle 'chirurgie' pour greffer son cerveau dans un traducteur intelligent, et demandez-lui de décrire ce qu'il voit. Si l'IA vous dit 'C'est rouge' au lieu de 'C'est un 5', vous savez qu'elle est fragile et qu'il faut la rééduquer !"

C'est une étape cruciale pour rendre l'intelligence artificielle plus honnête, plus sûre et plus fiable dans le monde réel.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le domaine de l'apprentissage automatique (ML) fait face à un défi critique : la robustesse des modèles. Bien que les modèles puissent atteindre des performances élevées sur des ensembles de données de test, ils souffrent souvent d'un décalage de covariable (covariate shift) lorsqu'ils sont déployés dans le monde réel. Cela se produit lorsque la distribution des données d'entraînement diffère de celle des données réelles, conduisant le modèle à apprendre des caractéristiques fallacieuses (spurious features) plutôt que les concepts pertinents.

Les méthodes actuelles d'IA explicable (XAI), telles que les cartes de saillance (saliency maps) générées par Grad-CAM ou LIFT-CAM, mettent en évidence les zones de pixels qui excitent le modèle. Cependant, ces méthodes peuvent être trompeuses si des caractéristiques fallacieuses et saillantes se chevauchent dans le même espace de pixels. Il est donc nécessaire de développer une méthode capable d'identifier les concepts dominants (par exemple, la couleur vs la forme) qui guident réellement la prédiction du modèle, afin de détecter les biais avant le déploiement.

2. Méthodologie

Les auteurs proposent une nouvelle approche d'IA explicable basée sur les captions (descriptions textuelles), qui intègre un modèle autonome (standalone) à expliquer dans l'architecture CLIP (Contrastive Language-Image Pre-training) via une technique novatrice de chirurgie de réseau (network surgery).

A. Architecture et Chirurgie de Réseau

Modèle à expliquer : Un ResNet-50 pré-entraîné sur ImageNet et affiné pour une classification binaire de chiffres manuscrits (MNIST : 5 et 8).
Modèle de référence (CLIP) : Utilise un encodeur d'images modifié (ResNet-52) et un encodeur de texte basé sur un transformateur à auto-attention masquée.
Processus de chirurgie : L'objectif est de transférer les propriétés du modèle autonome vers l'encodeur d'images de CLIP.
- Le modèle autonome possède 49 couches convolutives (22 720 cartes d'activation).
- L'encodeur CLIP possède 51 couches convolutives (3 840 cartes d'activation dans les couches cibles).
- Seules les dernières couches des étapes 2, 3, 4 et 5 de l'encodeur CLIP sont éligibles au remplacement pour préserver l'espace conceptuel de haut niveau de CLIP.

B. Appariement des Activations (Activation Matching)

Pour remplacer les cartes d'activation de CLIP par celles du modèle autonome, une procédure d'appariement est nécessaire :

Normalisation : Les cartes d'activation sont redimensionnées (interpolation bilinéaire) et normalisées (standard scaler) en utilisant les statistiques (moyenne $\mu$ et écart-type $\sigma$ ) de chaque modèle pour assurer une comparabilité.
Calcul de similarité : Une matrice de scores de corrélation ( $Z_{ij}$ ) est calculée entre chaque carte d'activation du modèle autonome et celle de CLIP.
Sélection : Les paires de cartes d'activation présentant la corrélation la plus élevée sont sélectionnées pour être échangées.

C. Explication par Captions

Une fois le modèle autonome intégré dans CLIP, le modèle hybride est soumis à des captions textuelles décrivant des concepts dominants (ex: "un chiffre rouge", "un chiffre vert", "un chiffre en forme de 5", "un chiffre en forme de 8").

La similarité cosinus entre l'embedding de l'image et les embeddings textuels est mesurée.
Si les scores élevés correspondent principalement aux descriptions de couleur, le modèle est biaisé par la couleur.
Si les scores élevés correspondent aux descriptions de forme, le modèle se concentre sur la structure du chiffre.

3. Résultats Expérimentaux

L'expérience a été menée sur un jeu de données MNIST biaisé :

Configuration biaisée : Tous les chiffres "5" sont rouges et tous les chiffres "8" sont verts.
Configuration réelle (test) : Les couleurs sont aléatoires.

Résultats clés :

Détection du biais : Le modèle XAI basé sur les captions a correctement identifié que le modèle autonome (ResNet-50) utilisait la couleur comme concept dominant pour ses prédictions, et non la forme. Cela a été confirmé par une forte similarité cosinus avec les captions de couleur.
Limitation de la chirurgie : Seule une fraction des cartes d'activation (environ 16,9 %) a pu être transférée, ce qui rend la probabilité absolue de 100 % difficile à atteindre, mais la comparaison relative (couleur vs forme) reste statistiquement significative.
Validation de la robustesse : Après avoir supprimé l'information de couleur (conversion en niveaux de gris) et réentraîné le modèle, la méthode XAI a confirmé un changement de concept dominant : la forme est devenue le facteur déterminant, prouvant que le biais de couleur a été éliminé.

4. Contributions Clés

Méthode XAI basée sur les captions : Une approche qui dépasse les cartes de saillance en identifiant explicitement les concepts sémantiques (couleur, forme, texture) dominants.
Chirurgie de réseau pour CLIP : Une technique novatrice permettant d'injecter les caractéristiques d'un modèle autonome arbitraire dans l'espace conceptuel riche de CLIP sans réentraîner CLIP de zéro.
Détection précoce de biais : Capacité à révéler des décalages de covariables (comme l'association couleur/classe) avant le déploiement, même lorsque les caractéristiques fallacieuses et saillantes se chevauchent spatialement.

5. Signification et Impact

Ce travail démontre que la compréhension profonde des concepts dominants dans les réseaux de neurones convolutifs (CNN) est essentielle pour améliorer la robustesse.

Au-delà du débogage : La méthode n'est pas seulement un outil de débogage, mais une étape préalable nécessaire avant le déploiement de tout modèle de vision par ordinateur.
Applications critiques : L'approche est particulièrement pertinente pour des domaines à haut risque comme la médecine, où il est crucial de vérifier que le modèle ne se base pas sur des artefacts (ex: marqueurs hospitaliers, couleurs de contraste) plutôt que sur la pathologie réelle.
Supériorité sur les cartes de saillance : Contrairement aux cartes de saillance qui peuvent être ambiguës en cas de chevauchement de pixels, la méthode par captions offre une interprétation sémantique claire et directe du raisonnement du modèle.

En conclusion, cette méthode offre un cadre robuste pour auditer les modèles d'IA, garantissant qu'ils apprennent les bonnes caractéristiques et sont prêts pour des environnements réels complexes.