Hierarchical Concept-based Interpretable Models

Each language version is independently generated for its own context, not a direct translation.

🍳 Le Problème : La Cuisine "Boîte Noire"

Imaginez que vous avez un chef cuisinier (une Intelligence Artificielle) incroyablement talentueux. Il peut préparer des plats délicieux (résoudre des problèmes) avec une précision parfaite. Mais il y a un gros souci : ce chef ne vous explique jamais comment il a fait.

Quand vous lui demandez : "Pourquoi ce plat est-il salé ?", il répond juste : "Parce que c'est le résultat final." Il ne vous dit pas qu'il a mis trop de sel, ou qu'il a utilisé du sel de mer au lieu du sel de table. C'est ce qu'on appelle une boîte noire. C'est dangereux car si le plat est raté, vous ne savez pas comment le corriger.

Les chercheurs ont déjà créé des "chefs explicatifs" (appelés CEM dans le papier). Ces chefs disent : "J'ai mis du sel, du poivre et des oignons." C'est mieux ! Mais ils ont un défaut : ils traitent chaque ingrédient comme s'il était isolé. Ils ne voient pas que "l'oignon" est une sous-catégorie de "l'ingrédient aromatique", ou que "la carotte" est un type de "légume". Ils ne comprennent pas la hiérarchie de la cuisine.

🚀 La Solution : HiCEM et le "Découpage Conceptuel"

Les auteurs (Oscar Hill et son équipe) proposent deux innovations pour rendre ces chefs encore plus intelligents et transparents.

1. Le "Découpage Conceptuel" (Concept Splitting) : La Loupe Magique

Imaginez que vous avez un chef qui sait seulement dire "Il y a des légumes dans ce plat". C'est trop vague. Vous voulez savoir quels légumes.

Habituellement, pour apprendre au chef à distinguer les oignons des carottes, vous devriez lui montrer des milliers de photos étiquetées "oignon", "carotte", "poireau"... C'est long et coûteux (comme embaucher un assistant pour tout annoter).

Le génie de cette méthode :
Les chercheurs disent : "Attendez, notre chef a déjà appris à distinguer les légumes, même si on ne lui a jamais demandé de le faire explicitement !".
Ils utilisent une technique appelée Sparse Autoencoder (SAE) qui agit comme une loupe magique.

Ils regardent la "mémoire" du chef.
La loupe révèle que derrière l'étiquette vague "Légumes", il y a en fait des sous-réseaux cachés qui s'activent spécifiquement pour "Oignons" ou "Carottes".
Résultat : Ils découvrent automatiquement ces sous-concepts sans avoir besoin de nouvelles étiquettes manuelles. C'est comme si le chef vous disait : "Tiens, je réalise que quand je mets des oignons, une petite partie de mon cerveau s'allume différemment de quand je mets des carottes."

2. HiCEM : L'Arbre de la Connaissance

Une fois que le chef a découvert ces sous-concepts (oignons, carottes), ils construisent un nouveau type de chef : le HiCEM (Hierarchical Concept Embedding Model).

Au lieu de traiter "Légumes", "Oignons" et "Carottes" comme trois amis qui ne se connaissent pas, HiCEM les organise en famille :

Niveau 1 (Le Chef) : "Il y a des légumes."
Niveau 2 (Les Enfants) : "Plus précisément, il y a des oignons ET des carottes."

C'est comme un arbre généalogique. Si vous savez qu'il y a des "oignons", vous savez automatiquement qu'il y a des "légumes". Cette structure permet au modèle de raisonner comme un humain, en comprenant les liens entre les idées.

🛠️ Pourquoi c'est génial ? (Les Avantages)

Voici trois raisons pour lesquelles cette approche change la donne, illustrées par des analogies :

Économie de temps et d'argent (Moins d'étiquettes) :
- Avant : Pour apprendre à un modèle à reconnaître 100 types de légumes, il fallait 100 étiquettes manuelles.
- Maintenant : Vous donnez juste l'étiquette "Légumes". Le modèle utilise la "loupe" (Concept Splitting) pour découvrir les 100 types tout seul. C'est comme apprendre à un enfant à reconnaître les animaux en lui montrant juste "un chien", et en lui faisant remarquer qu'il existe des "chiens de berger" et des "chiens de compagnie" sans avoir à lui apprendre chaque race séparément.
Des corrections en temps réel (Interventions) :
- Imaginez que le chef se trompe et dit "C'est une salade" alors qu'il y a des oignons. Avec les anciens modèles, vous deviez tout recommencer.
- Avec HiCEM, vous pouvez intervenir directement sur le sous-concept : "Non, ce n'est pas un oignon, c'est une échalote !" Le modèle met à jour sa compréhension instantanément et corrige le plat final. C'est comme avoir un bouton "Annuler" précis sur chaque ingrédient.
Des explications claires :
- Au lieu de dire "C'est un plat salé", le modèle peut dire : "C'est un plat salé parce qu'il contient des oignons et du sel, mais pas de carottes." C'est une explication fine et précise.

🧪 Les Résultats : La Cuisine du Futur

Les chercheurs ont testé leur méthode sur plusieurs "cuisines" (bases de données) :

Des chiffres manuscrits (MNIST).
Des oiseaux (CUB).
Et même une nouvelle cuisine virtuelle appelée PseudoKitchens (des images 3D ultra-réalistes de cuisines qu'ils ont créés eux-mêmes pour avoir le contrôle total).

Ce qu'ils ont découvert :

Le "Découpage Conceptuel" trouve des sous-concepts que les humains n'avaient même pas prévus, et les humains sont d'accord pour dire que c'est logique (ex: "Ce plat contient des oignons" est bien un type de "Légumes").
Le modèle reste aussi performant (voire plus) que les modèles classiques, tout en étant beaucoup plus transparent.
Si on corrige une erreur sur un sous-concept (ex: "Ce n'est pas un oignon"), la prédiction finale s'améliore souvent.

🎯 En Résumé

Ce papier nous dit que nous n'avons pas besoin de tout étiqueter manuellement pour avoir des IA intelligentes et compréhensibles. En utilisant des techniques mathématiques pour "déplier" la pensée de l'IA, nous pouvons révéler sa structure interne, créer des arbres de concepts hiérarchiques et permettre aux humains de corriger l'IA avec une précision chirurgicale.

C'est passer d'un chef qui dit "C'est bon" à un chef qui vous explique : "J'ai utilisé des oignons, donc c'est savoureux, mais attention, j'ai oublié le sel." 🥣✨

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les réseaux de neurones profonds (DNN) actuels, bien que performants, souffrent d'un manque de transparence (opacité de leurs représentations latentes), ce qui entrave leur compréhension, leur débogage et leur débiaisage. Les Modèles à Encodage de Concepts (CEM) ont été proposés pour résoudre ce problème en mappant les entrées vers des représentations de concepts interprétables par l'humain (ex: "taille", "couleur").

Cependant, les CEMs existants présentent deux limitations majeures :

Indépendance des concepts : Ils traitent les concepts comme des entités indépendantes, ignorant les relations hiérarchiques et interdépendantes inhérentes à la cognition humaine et aux concepts du monde réel (ex: "contient des oignons" est un sous-concept de "contient des légumes").
Coût d'annotation : Ils nécessitent des annotations de concepts à différentes granularités lors de l'entraînement, ce qui est coûteux et limite leur applicabilité. De plus, les méthodes de découverte de concepts existantes négligent souvent ces relations hiérarchiques.

2. Méthodologie

L'article propose une nouvelle famille de modèles, les HiCEMs (Hierarchical Concept Embedding Models), couplée à une méthode de découverte automatique de sous-concepts appelée Concept Splitting.

A. Concept Splitting (Fission de Concepts)

Cette méthode vise à découvrir automatiquement des sous-concepts plus fins à partir de l'espace d'encodage d'un CEM pré-entraîné, sans nécessiter d'annotations supplémentaires.

Principe : Les auteurs postulent que l'espace d'encodage d'un CEM contient des sous-espaces correspondant à des sous-concepts non explicitement fournis lors de l'entraînement (ex: un concept "contient des légumes" encode implicitement "oignons", "carottes").
Algorithme :
1. On entraîne un CEM initial et on extrait les vecteurs d'encodage des concepts.
2. Pour un concept donné, on sépare les encodages en deux ensembles : ceux où le concept est prédit comme présent (positif) et ceux où il est absent (négatif).
3. On entraîne des Auto-encodeurs Creux (Sparse Autoencoders - SAE), spécifiquement des BatchTopK SAEs, sur ces deux ensembles séparément.
4. Les caractéristiques (features) actives du SAE sont interprétées comme de nouveaux sous-concepts. Les exemples activant une feature sont étiquetés positivement pour ce nouveau sous-concept.
Alternative : L'article explore également une approche par clustering (via le framework TURTLE) pour découvrir des sous-concepts mutuellement exclusifs.

B. Architecture HiCEM

Le HiCEM est une architecture conçue pour modéliser explicitement les relations hiérarchiques entre concepts et sous-concepts.

Structure : Pour chaque concept de haut niveau $c_i$ , le modèle apprend deux encodages (positif et négatif). Contrairement aux CEMs classiques, ces encodages sont générés via des modules de sous-concepts.
Modules de Sous-concepts :
- Un module "positif" prend l'encodage intermédiaire du concept parent et génère des encodages pour ses sous-concepts positifs.
- Un module "négatif" fait de même pour les sous-concepts négatifs.
- L'encodage final du concept parent est un mélange pondéré des encodages de ses sous-concepts, pondérés par leurs probabilités d'activation.
Prédiction : Les encodages mixtes de tous les concepts sont concaténés et passés à un prédicteur de tâche (couche linéaire simple).
Interventions : Le modèle permet des interventions à plusieurs niveaux de granularité. Un expert peut corriger un concept de haut niveau ou un sous-concept spécifique à l'inférence, mettant à jour la prédiction finale de manière cohérente avec la hiérarchie.

3. Contributions Clés

Concept Splitting : Une méthode innovante pour découvrir des sous-concepts interprétables à partir des embeddings d'un CEM pré-entraîné en utilisant des SAEs, réduisant ainsi le besoin d'annotations exhaustives.
HiCEMs : Une nouvelle architecture de modèles interprétables qui capture les relations hiérarchiques entre concepts et sous-concepts, permettant des explications plus fines et des interventions multi-niveaux.
PseudoKitchens : Introduction d'un nouveau jeu de données synthétique composé de rendus 3D photoréalistes de cuisines, avec des annotations de concepts parfaites (ground-truth) et une localisation spatiale précise, permettant une évaluation rigoureuse.
Validation Empirique : Démonstration que les sous-concepts découverts sont interprétables par l'humain et que les HiCEMs maintiennent une précision de tâche compétitive tout en améliorant la capacité d'intervention.

4. Résultats Expérimentaux

Les auteurs ont évalué leur approche sur six jeux de données (MNIST-ADD, SHAPES, CUB, AwA2, PseudoKitchens, ImageNet) et via une étude utilisateur.

Découverte de sous-concepts (RQ1) :
- Le Concept Splitting découvre des sous-concepts interprétables avec une haute précision (ROC-AUC > 0.9 sur plusieurs jeux de données).
- Une étude utilisateur sur ImageNet montre que 67,9 % des utilisateurs jugent les sous-concepts découverts sémantiquement liés à leur concept parent (contre 4 % pour un contrôle aléatoire).
Précision de la tâche et des concepts (RQ2) :
- Les HiCEMs entraînés avec Concept Splitting atteignent des précisions de tâche comparables aux CEMs de base et aux modèles "boîte noire", sans sacrifier la performance.
- La précision des concepts de haut niveau fournis reste élevée, similaire à celle des CEMs standards.
Efficacité des interventions (RQ3) :
- L'intervention sur les sous-concepts découverts permet d'améliorer la précision de la tâche.
- Sur des jeux de données complexes (CUB, PseudoKitchens), les interventions sur les sous-concepts dans les HiCEMs sont plus efficaces que dans les CEMs standards, prouvant l'avantage de la modélisation hiérarchique.
- Les interventions sur les concepts de haut niveau fonctionnent aussi bien dans les HiCEMs que dans les CEMs.

5. Signification et Impact

Ce travail comble un vide important dans la modélisation basée sur les concepts en introduisant une structure hiérarchique explicite.

Réduction de la charge d'annotation : En découvrant automatiquement des sous-concepts à partir de labels grossiers, la méthode rend les modèles interprétables plus accessibles et moins coûteux à entraîner.
Explicabilité fine : Les HiCEMs offrent des explications plus détaillées (granularité fine) tout en restant interprétables, ce qui est crucial pour le débogage et la confiance dans les modèles.
Flexibilité d'intervention : La capacité d'intervenir à différents niveaux de la hiérarchie permet aux experts humains de corriger les erreurs de raisonnement du modèle de manière plus nuancée et efficace.

En conclusion, les HiCEMs et le Concept Splitting représentent une avancée significative vers des modèles d'IA plus transparents, capables de raisonner de manière structurée comme les humains, tout en réduisant la dépendance aux annotations manuelles massives.