Learning Concept Bottleneck Models from Mechanistic Explanations

Each language version is independently generated for its own context, not a direct translation.

🧠 Le Dilemme de l'IA : "Je sais le faire, mais je ne sais pas pourquoi"

Imaginez un génie des échecs (une IA) qui gagne tous les tournois. Mais si vous lui demandez : "Pourquoi as-tu joué ce coup ?", il répond : "Je ne sais pas, c'est juste une intuition." C'est le problème des modèles d'IA actuels : ils sont très performants, mais ce sont des "boîtes noires". On ne comprend pas leur raisonnement.

Pour régler ça, les chercheurs ont créé des modèles appelés CBM (Concept Bottleneck Models). L'idée est simple : au lieu de sauter directement à la réponse, l'IA doit d'abord expliquer ses étapes intermédiaires en utilisant des concepts humains (ex: "il y a des rayures", "il y a de l'herbe").

Le problème ? Les chercheurs devaient deviner ou inventer ces concepts à l'avance. C'est comme demander à un cuisinier de cuisiner un plat en utilisant uniquement des ingrédients qu'il n'a jamais vus ou qui ne vont pas ensemble. Résultat : l'IA devient moins performante et ses explications sont parfois fausses.

🚀 La Solution : M-CBM (Le "Mécanicien" de l'IA)

Les auteurs de cet article (Antonio De Santis et son équipe) ont eu une idée brillante : au lieu de deviner les concepts, demandons à l'IA elle-même de nous dire ce qu'elle a appris !

Ils ont créé une nouvelle méthode appelée M-CBM (Mechanistic Concept Bottleneck Model). Voici comment ça marche, étape par étape, avec une analogie :

1. L'Autopsie du Cerveau (Extraction des concepts)

Imaginez que le cerveau de l'IA (le modèle "boîte noire") est une grande pièce remplie de milliers de petites ampoules qui s'allument quand l'IA voit une image.

L'ancienne méthode : On essayait de deviner quelles ampoules correspondaient à "un oiseau" ou "un arbre".
La méthode M-CBM : On utilise un outil spécial (un Sparse Autoencoder ou SAE) pour observer attentivement ces ampoules. On découvre que certaines s'allument toujours ensemble quand l'IA voit "un bec jaune", d'autres pour "des plumes bleues". L'IA a déjà appris ces concepts, elle les a juste cachés dans ses circuits.

2. Le Traducteur (Nommer les concepts)

Maintenant qu'on a repéré ces groupes d'ampoules, il faut leur donner un nom compréhensible par un humain.

On prend des exemples d'images où ces ampoules s'allument fort, et d'autres où elles restent éteintes.
On montre tout ça à un Grand Intellectuel Numérique (une IA multimodale comme GPT-4).
On lui demande : "Regarde ces images, qu'est-ce que ces lumières semblent chercher ?"
L'IA répond : "Ah, c'est un 'oiseau avec un masque noir autour des yeux' !". C'est ainsi qu'on donne un nom à chaque concept.

3. Le Test de Vérité (Annotation)

Parfois, le Grand Intellectuel se trompe ou est trop vague. Alors, on lui demande de vérifier un échantillon de photos pour confirmer : "Est-ce que cette photo contient vraiment un 'masque noir' ?". On crée ainsi un manuel d'instructions précis basé sur ce que l'IA a réellement appris.

4. Le Nouveau Modèle (L'IA Transparente)

Enfin, on entraîne un nouveau modèle qui utilise uniquement ces concepts validés pour prendre ses décisions.

Au lieu de dire : "Je pense que c'est un oiseau" (sans savoir pourquoi).
Il dit : "Je vois un bec jaune, des plumes bleues et un masque noir, donc c'est un Hooded Warbler."

🏆 Pourquoi c'est génial ? (Les Résultats)

L'article montre que cette approche est supérieure pour deux raisons principales :

La Précision : Comme les concepts viennent directement de ce que l'IA sait déjà, elle ne perd pas de temps à apprendre des choses inutiles. Elle est aussi forte (voire plus forte) que la version "boîte noire" originale.
La Clarté (Pas de fuite d'information) : Souvent, les IA "trichent" en utilisant des indices cachés (comme le fond de l'image) pour deviner la réponse, ce qui rend l'explication fausse. Les auteurs ont inventé une nouvelle règle, le NCC (Nombre de Concepts Contributifs), qui force l'IA à être concise. C'est comme si on lui disait : "Tu as le droit d'utiliser seulement 5 mots pour expliquer ta décision, choisis-les bien !". Cela garantit que l'explication est vraiment la cause de la décision.

🎯 En Résumé

Imaginez que vous vouliez apprendre à un enfant à reconnaître des animaux.

L'ancienne méthode : Vous lui donnez une liste de mots que vous pensez importants (oreilles, queue, pattes), même si ce n'est pas ce qui différencie vraiment un lion d'un tigre.
La méthode M-CBM : Vous observez comment l'enfant regarde les animaux, vous voyez qu'il se focalise sur "la crinière" et "les rayures", et vous lui apprenez à utiliser ces mots précis pour expliquer ses choix.

Le résultat ? L'enfant (l'IA) devient non seulement plus intelligent, mais il peut aussi vous expliquer parfaitement pourquoi il a fait son choix, sans tricher. C'est un grand pas vers des IA plus fiables et compréhensibles, surtout dans des domaines sensibles comme la médecine ou la conduite autonome.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les Modèles à Goulot de Concepts (Concept Bottleneck Models - CBM) visent à fournir une interprétabilité ante-hoc (par conception) en apprenant d'abord un ensemble de concepts interprétables avant de prédire la classe finale. Cependant, les approches actuelles souffrent de limitations majeures :

Définition a priori des concepts : Les concepts sont généralement spécifiés par des humains, extraits de graphes de connaissances, générés par des LLM ou dérivés de modèles vision-langage (comme CLIP).
Manque de puissance prédictive : Ces concepts prédéfinis ne possèdent pas toujours une puissance prédictive suffisante pour la tâche cible ou ne sont pas apprenables à partir des données disponibles.
Fuite d'information (Information Leakage) : Pour compenser la faiblesse des concepts, les modèles finaux tendent à "tricher" en apprenant des motifs cachés directement liés à la classe, contournant ainsi la couche de concepts. Cela rend le modèle moins interprétable et réduit la fiabilité des explications.
Écart de performance : Lorsqu'on contrôle la fuite d'information, les CBM de l'état de l'art sous-performent souvent significativement par rapport à leurs homologues "boîte noire".

L'article propose de résoudre ce problème en abandonnant l'hypothèse de concepts prédéfinis pour extraire directement les concepts appris par le modèle boîte noire lui-même.

2. Méthodologie : M-CBM (Mechanistic CBM)

Les auteurs introduisent une nouvelle pipeline nommé M-CBM (Mechanistic Concept Bottleneck Model) qui transforme n'importe quel modèle boîte noire en un CBM interprétable. Le processus se déroule en quatre étapes principales (illustrées dans la Figure 1 du papier) :

A. Extraction de Concepts (via SAE)

Au lieu de deviner les concepts, le pipeline décompose les représentations internes d'un modèle entraîné (backbone) en concepts disjoints.

Outil : Utilisation d'Autoencodeurs Creux (Sparse Autoencoders - SAE).
Fonctionnement : Le SAE est entraîné pour reconstruire les activations du backbone tout en imposant une contrainte de parcimonie sur la couche cachée. Cela permet de "démêler" les caractéristiques superposées (superposition) en neurones monosémantiques, où chaque neurone correspond à un concept distinct.
Filtrage : Les neurones "morts" (jamais activés) ou très peu actifs sont éliminés pour ne conserver que les concepts pertinents pour la tâche.

B. Nomination des Concepts (via MLLM)

Une fois les neurones SAE identifiés, ils doivent être étiquetés sémantiquement.

Approche : Un Grand Modèle de Langage Multimodal (MLLM), spécifiquement GPT-4.1 dans l'expérience, est sollicité.
Prompting : Le MLLM reçoit des exemples d'images activant fortement le neurone (avec des cartes de saillance pour localiser la région) et des exemples non-actifs. Il doit générer une description textuelle concise du concept.
Fusion : Des concepts textuellement similaires (cosinus > 0.98) sont fusionnés pour éviter les doublons.

C. Annotation du Jeu de Données

Pour entraîner la couche de goulot (CBL), il faut des étiquettes binaires (présence/absence) pour chaque concept sur un sous-ensemble d'images.

Stratégie : Le MLLM annoté un sous-ensemble d'environ 1000 images par concept (500 exemples actifs et 500 non-actifs).
Échantillonnage : Les exemples non-actifs incluent des images aléatoires et des images similaires aux exemples actifs pour améliorer la discrimination des caractéristiques fines.
Résultat : Une matrice d'étiquettes ternaires (1 = présent, 0 = absent, -1 = non annoté) est générée.

D. Entraînement du Modèle CBM

Couche de Goulot (CBL) : Un réseau de neurones apprend à prédire la présence des concepts à partir des caractéristiques du backbone (frozen). La perte est une Binaire Cross-Entropy masquée (ne considérant que les images annotées).
Classifieur Final : Un classifieur linéaire creux (utilisant le solveur GLM-SAGA avec pénalité Elastic-Net) prédit la classe finale à partir des logits des concepts. La parcimonie est contrôlée pour limiter la fuite d'information.

3. Contribution Clé : La Métrique NCC

Les auteurs introduisent une nouvelle métrique pour évaluer et contrôler la fuite d'information et la concision des explications : le Nombre de Concepts Contributifs (Number of Contributing Concepts - NCC).

Limitation de la métrique précédente (NEC) : Le Number of Effective Concepts (NEC) compte simplement les poids non nuls du classifieur final. Cela impose une limite rigide sur le vocabulaire de concepts par classe, ce qui peut être trop restrictif pour des classes hétérogènes.
Définition du NCC : Le NCC mesure la parcimonie au niveau de la décision. Il calcule le nombre minimum de concepts nécessaires pour expliquer une fraction $\tau$ (ex: 95%) de la contribution totale à la prédiction d'une classe.
Avantage : Le NCC permet d'avoir un grand nombre de concepts potentiels (vocabulaire riche) tout en garantissant que la décision finale repose sur un petit sous-ensemble de concepts clés, offrant ainsi une meilleure flexibilité sans sacrifier la concision de l'explication.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois jeux de données : CUB (oiseaux), ISIC2018 (lésions cutanées) et ImageNet.

Performance de Précision : Le M-CBM surpasse systématiquement les CBM de l'état de l'art (LF-CBM, VLG-CBM, DN-CBM) à parcimonie égale (NCC fixé).
- Sur CUB, M-CBM atteint 73.70% de précision à NCC=5, contre 58.08% pour LF-CBM.
- Sur ImageNet, M-CBM atteint 72.18% à NCC=5, surpassant DN-CBM (46.71%) et LF-CBM (62.20%).
Prédiction de Concepts : M-CBM apprend beaucoup mieux ses propres concepts que les méthodes basées sur des concepts générés par LLM ou CLIP. Le ROC-AUC macro moyen est de 90.04% sur CUB, contre 62.03% pour VLG-CBM.
Robustesse à la Fuite d'Information : Contrairement aux autres méthodes où l'utilisation de mots aléatoires permet d'atteindre une précision proche de la boîte noire (signe de fuite), M-CBM maintient un compromis clair entre précision et interprétabilité.
Qualité des Explications : Les visualisations (diagrammes de Sankey et explications par instance) montrent que M-CBM identifie des concepts visuellement pertinents et cohérents avec la littérature médicale ou biologique (ex: "nids ovoïdes bleu-gris" pour le carcinome basocellulaire).

5. Signification et Conclusion

Signification :
Ce travail démontre que l'interprétabilité n'a pas besoin de sacrifier la performance si l'on s'appuie sur les concepts internes réels du modèle plutôt que sur des hypothèses externes. En combinant l'interprétabilité mécaniste (SAE) avec la puissance des MLLM pour l'annotation, M-CBM comble l'écart de performance entre les modèles interprétables et les modèles boîte noire.

Limitations et Perspectives :

Coût computationnel : L'annotation par MLLM est coûteuse (bien que moins que l'annotation humaine complète).
Qualité de l'annotation : La qualité finale dépend de la capacité du MLLM à nommer et annoter correctement. Des tests avec des modèles open-source (InternVL) montrent une baisse de performance, soulignant l'importance des modèles propriétaires actuels.
Fuite résiduelle : Bien que le NCC réduise la fuite, elle n'est pas totalement éliminée (les concepts aléatoires peuvent encore donner de bons résultats, bien que moins bien que les vrais concepts).

En conclusion, M-CBM propose un paradigme robuste pour construire des modèles IA transparents qui apprennent de leurs propres représentations internes, offrant des explications concises et des performances compétitives sur des tâches complexes.