Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un expert en intelligence artificielle (IA) très doué, capable de reconnaître des objets sur une photo (comme un chien, un oiseau ou un polype dans un intestin). Le problème, c'est que cet expert est muet. Il vous dit "C'est un chien !", mais il refuse de vous montrer où il a regardé pour le savoir. Est-ce qu'il a vu les oreilles ? La queue ? Ou est-ce qu'il s'est juste trompé en regardant l'herbe en arrière-plan ?

C'est là qu'intervient Winsor-CAM, une nouvelle méthode présentée dans cet article pour rendre l'IA "parlante" et compréhensible.

Voici une explication simple, avec des analogies du quotidien :

1. Le Problème : L'expert qui ne regarde que le sommet de l'arbre

Les méthodes actuelles (comme Grad-CAM) fonctionnent un peu comme un inspecteur qui ne regarde que la dernière pièce d'une usine.

L'analogie : Imaginez une chaîne de montage de voitures. La première étape fabrique les vis et les boulons (les détails fins). La dernière étape assemble la voiture entière (le sens global).
Le souci : Les méthodes classiques ne regardent que la voiture finie. Elles savent qu'il y a une voiture, mais elles ignorent les boulons et les détails qui ont permis de la construire. De plus, si une seule pièce de la dernière étape est trop bruyante ou bizarre, elle peut fausser tout le diagnostic.

2. La Solution : Winsor-CAM, le chef d'orchestre intelligent

Winsor-CAM change la donne en écoutant tous les niveaux de l'usine, du premier boulon jusqu'à la voiture finie. Mais il ne se contente pas de tout additionner bêtement (ce qui créerait du bruit). Il utilise une astuce statistique appelée "Winsorisation".

L'analogie du comité de vote : Imaginez que vous demandez l'avis de 100 experts sur une photo.
- La méthode classique prend l'avis du dernier expert (le plus senior) et ignore les 99 autres.
- Une méthode naïve ferait une moyenne de tous les avis, ce qui pourrait être perturbé par un expert qui crie très fort (un "outlier" ou une valeur extrême) alors qu'il n'a rien compris.
- Winsor-CAM, lui, agit comme un chef d'orchestre très sage. Il écoute tout le monde, mais il dit : "Hé toi, qui crie trop fort, calme-toi un peu. Et toi, qui ne dis rien, reste silencieux." Il atténue les avis extrêmes (les cris) pour ne garder que le consensus intelligent.

3. Le Bouton Magique : Le "Réglage de la Loupe"

La grande innovation de Winsor-CAM est qu'il est réglable par l'humain. Vous avez un bouton (un paramètre appelé p) qui vous permet de choisir ce que vous voulez voir.

Si vous tournez le bouton vers le bas (p faible) : Vous demandez à l'IA de se concentrer sur les détails fins.
- Analogie : C'est comme regarder une photo au microscope. Vous voyez les textures, les bords, les poils d'un animal. C'est utile pour un technicien qui veut vérifier la qualité d'une image.
Si vous tournez le bouton vers le haut (p élevé) : Vous demandez à l'IA de se concentrer sur le sens global.
- Analogie : C'est comme regarder la photo de loin. Vous voyez la forme de l'animal, son type, son contexte. C'est utile pour un médecin qui veut savoir "Est-ce un polype ou non ?" sans se perdre dans les détails.

4. Pourquoi c'est génial ? (Les Résultats)

Les chercheurs ont testé cette méthode sur des milliers d'images (des animaux, des voitures, et même des images médicales complexes).

Plus précis : Là où les anciennes méthodes pointaient parfois dans le vide ou sur le fond, Winsor-CAM pointe exactement sur l'objet. C'est comme passer d'une flèche qui touche le bord de la cible à une flèche qui touche le centre.
Plus robuste : Même si on ne règle pas le bouton parfaitement, Winsor-CAM fonctionne mieux que les autres méthodes "tout-ou-rien".
Utile en médecine : Sur des images de polypes (petites excroissances dans l'intestin), la méthode a aidé à localiser précisément les zones à risque, ce qui est crucial pour les chirurgiens.

En résumé

Winsor-CAM, c'est comme donner à l'IA un microphone réglable.
Au lieu de nous dire juste "C'est un chien", elle nous montre une carte de chaleur. Et grâce à un bouton, vous pouvez décider : "Montre-moi les poils du chien" ou "Montre-moi juste la silhouette du chien".

C'est un outil qui transforme l'IA d'une "boîte noire" mystérieuse en un collaborateur transparent, capable de s'adapter aux besoins spécifiques d'un médecin, d'un ingénieur ou d'un simple curieux. Cela permet de faire confiance à l'IA, surtout dans des domaines vitaux comme la santé.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les réseaux de neurones convolutifs (CNN) sont omniprésents dans des domaines critiques tels que la santé et les systèmes autonomes, mais leur nature de « boîte noire » soulève des préoccupations majeures concernant la confiance et la redevabilité. Les méthodes d'explication visuelle existantes, comme Grad-CAM, souffrent de limitations importantes :

Limitation de la couche unique : Grad-CAM se base généralement sur la dernière couche de convolution, ce qui peut ignorer des indices de bas niveau (textures, bords) appris dans les couches précédentes.
Instabilité et bruit : Les tentatives naïves d'agréger les cartes de toutes les couches (par exemple, une moyenne simple) introduisent du bruit et diluent les motifs sémantiques pertinents.
Manque de contrôle : Les méthodes actuelles offrent peu de flexibilité pour ajuster le niveau d'abstraction sémantique de l'explication selon les besoins de l'utilisateur.

2. Méthodologie : Winsor-CAM

Les auteurs proposent Winsor-CAM, une méthode d'attribution visuelle en un seul passage (single-pass) qui agrège les informations de toutes les couches de convolution d'un CNN tout en supprimant les contributions aberrantes.

Le processus se déroule en six étapes clés :

Calcul de Grad-CAM par couche : Pour chaque couche de convolution $i$ , une carte de localisation Grad-CAM est calculée en pondérant les cartes de caractéristiques par les gradients de la classe cible.
Alignement spatial : Toutes les cartes de différentes résolutions sont upscalées (par interpolation bilinéaire ou autre) vers une résolution commune.
Extraction du score d'importance : Un score scalaire $\Gamma_i^c$ est dérivé pour chaque couche (via moyenne ou maximum des poids de filtre), représentant l'importance globale de cette couche pour la prédiction.
Winsorisation (Étape clé) : Une technique statistique de « Winsorisation » est appliquée aux scores d'importance. Au lieu de supprimer les valeurs extrêmes, celles-ci sont plafonnées à un seuil $T$ défini par un percentile $p$ (choisi par l'utilisateur). Cela atténue la dominance des couches profondes (qui ont souvent des activations très élevées) sans les éliminer complètement.
Normalisation : Les scores Winsorisés sont normalisés dans une plage définie (ex: [0.1, 1.0]), en préservant les valeurs nulles pour les couches non pertinentes.
Fusion finale : La carte de chaleur finale est une somme pondérée des cartes de toutes les couches, utilisant les poids normalisés.

Le paramètre $p$ : C'est le cœur de l'approche « réglable par l'humain ».

Une valeur de $p$ faible (ex: 0-30) atténue fortement les couches profondes, mettant l'accent sur les caractéristiques de bas niveau (bords, textures).
Une valeur de $p$ élevée (ex: 80-100) conserve davantage les contributions des couches profondes, favorisant les représentations sémantiques abstraites (formes, objets).

3. Contributions Clés

Première méthode d'agrégation multi-couches avec Winsorisation : Winsor-CAM est la première méthode à agréger les explications Grad-CAM sur toute la pile convolutive tout en utilisant une atténuation robuste des valeurs aberrantes via la Winsorisation.
Paramètre de contrôle humain : Introduction d'un paramètre de percentile ( $p$ ) permettant aux utilisateurs de régler dynamiquement le niveau d'abstraction sémantique de l'explication, facilitant l'analyse « expert-in-the-loop ».
Évaluation complète : Une validation rigoureuse sur six architectures CNN (ResNet50, DenseNet121, VGG16, InceptionV3, EfficientNet-B0, ConvNeXt-Tiny) et deux jeux de données (PASCAL VOC 2012 et PolypGen pour l'imagerie médicale).
Supériorité sur les baselines : Démonstration que Winsor-CAM surpasse non seulement Grad-CAM standard, mais aussi des méthodes avancées comme Grad-CAM++, LayerCAM, ShapleyCAM, ScoreCAM, AblationCAM et FullGrad.

4. Résultats Expérimentaux

Les expériences ont été menées sur des métriques de localisation (IoU, distance du centre de masse) et de fidélité (Insertion/Deletion AUC).

Sur PASCAL VOC 2012 (Images naturelles) :
- Avec DenseNet121, Winsor-CAM atteint un IoU de 46,8 % contre 39,0 % pour Grad-CAM (couche finale) et 43,3 % pour FullGrad.
- La distance du centre de masse (CoM) est réduite de 0,074 à 0,059, indiquant une meilleure alignement spatial avec les masques de vérité terrain.
- L'AUC d'insertion s'améliore (0,656 vs 0,623) et l'AUC de suppression diminue (0,197 vs 0,242), prouvant une meilleure fidélité.
- Robustesse : Même la configuration avec le pire percentile fixe ( $p$ ) surpasse FullGrad sur toutes les métriques, démontrant la robustesse de la méthode indépendamment du réglage fin.
Sur PolypGen (Imagerie médicale) :
- Winsor-CAM maintient son avantage en termes de localisation (IoU et CoM) sur des données médicales complexes, bien que les métriques de fidélité (Insertion/Deletion) soient plus difficiles à évaluer en raison de la nature des images endoscopiques.
- L'étude d'ablation montre que l'inclusion des couches précoces améliore la localisation, bien que les couches profondes restent dominantes pour la sémantique médicale.
Analyse par ablation : L'inclusion de plus de couches (jusqu'à toutes les couches) améliore généralement les performances, confirmant que l'agrégation multi-niveaux, lorsqu'elle est correctement pondérée, est supérieure à l'utilisation d'une seule couche.

5. Signification et Impact

Winsor-CAM représente une avancée significative dans le domaine de l'IA explicable (XAI) pour plusieurs raisons :

Efficacité : Contrairement aux méthodes multi-passes (comme Integrated Gradients ou ShapleyCAM) qui sont coûteuses en calcul, Winsor-CAM conserve l'efficacité d'un seul passage (single-pass) de Grad-CAM.
Adaptabilité contextuelle : La capacité de régler le niveau de détail (bords vs objets) via le paramètre $p$ rend l'outil particulièrement utile pour des experts humains (radiologues, ingénieurs) qui peuvent avoir des besoins d'interprétation différents selon le contexte.
Fiabilité : En supprimant statistiquement les contributions aberrantes des couches profondes, la méthode évite la domination de certaines couches et produit des cartes de chaleur plus cohérentes et alignées avec la vérité terrain.
Généralisation : La méthode s'avère efficace aussi bien sur des images naturelles que sur des données médicales critiques, renforçant sa pertinence pour des applications où la transparence est vitale.

En conclusion, Winsor-CAM propose un compromis optimal entre la richesse de l'information multi-couches, la robustesse statistique et le contrôle interactif par l'utilisateur, en faisant un outil de choix pour l'analyse de modèles de vision par ordinateur.

Winsor-CAM: Human-Tunable Visual Explanations from Deep Networks via Layer-Wise Winsorization

1. Le Problème : L'expert qui ne regarde que le sommet de l'arbre

2. La Solution : Winsor-CAM, le chef d'orchestre intelligent

3. Le Bouton Magique : Le "Réglage de la Loupe"

4. Pourquoi c'est génial ? (Les Résultats)

En résumé

1. Problématique

2. Méthodologie : Winsor-CAM

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems