This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Titre : "Ça ressemble à ça, mais pas exactement"

Imaginez que vous essayez d'enseigner à un ordinateur comment reconnaître un oiseau. L'approche traditionnelle (les réseaux de prototypes) consiste à dire à l'IA : "Pour reconnaître un moineau, cherche une image de référence d'un moineau. Pour un faucon, cherche une image de référence d'un faucon."

Le problème ? L'IA devient paresseuse et paresseuse. Au lieu d'apprendre les différentes parties de l'oiseau (le bec, l'aile, la queue), elle finit par trouver une seule et même partie (par exemple, le bec) pour tous les oiseaux. Elle dit : "Ah, c'est un oiseau parce qu'il a un bec !" et ignore tout le reste. C'est ce que les chercheurs appellent l'effondrement des prototypes : toutes les explications se ressemblent et se superposent, rendant l'IA aveugle aux détails fins.

🌪️ Le Problème : La "Poussière de Neige" (Neural Collapse)

Les auteurs expliquent que ce n'est pas un bug, mais une conséquence inévitable de la façon dont l'IA apprend actuellement.
Imaginez que vous essayez de ranger une bibliothèque. Si vous êtes trop pressé de classer les livres par genre (oiseau vs voiture), vous finissez par jeter tous les détails et ne garder que l'étiquette principale. En mathématiques, cela s'appelle le Neural Collapse : l'IA écrase toute la diversité des images pour ne garder qu'un point unique, très simple, mais très peu informatif.

💡 La Solution : AMP (Les Prototypes sur un Manifold de Stiefel)

Pour régler ce problème, l'équipe propose une nouvelle méthode appelée AMP. Voici comment ça marche, avec des analogies :

1. Au lieu de boules de pâte à modeler, on utilise des bâtons rigides

L'ancienne méthode : Les prototypes étaient comme des boules de pâte à modeler. Elles pouvaient s'écraser, s'aplatir et se coller les unes aux autres.
La méthode AMP : Les chercheurs imposent une règle stricte : les prototypes doivent être comme des bâtons rigides et parfaitement droits qui ne peuvent pas se toucher. En mathématiques, ils les placent sur une "surface spéciale" (le Manifold de Stiefel) qui force ces bâtons à rester orthogonaux (à 90 degrés les uns des autres).
- Résultat : Impossible pour l'IA de dire "le bec et l'aile sont la même chose". Ils sont physiquement séparés par la géométrie.

2. Le couteau suisse intelligent (Calibration de rang dynamique)

Parfois, un oiseau a besoin de 3 parties pour être reconnu (bec, aile, queue), mais une voiture n'en a besoin que de 2 (roues, phares).

L'IA AMP apprend à ajuster le nombre de bâtons dont elle a besoin pour chaque catégorie. Elle utilise un "couteau suisse" qui retire automatiquement les bâtons inutiles (ceux qui ne servent à rien) pour ne garder que les essentiels. Cela évite le bruit et les explications confuses.

3. Des aimants pour éviter le chaos (Régularisation spatiale)

Même avec des bâtons rigides, l'IA pourrait décider que le "bâton 1" regarde la tête de l'oiseau et le "bâton 2" regarde aussi la tête (juste un tout petit peu plus à gauche).

AMP ajoute des aimants invisibles qui poussent chaque bâton à regarder une zone différente de l'image.
- Le bâton 1 doit regarder le bec.
- Le bâton 2 doit regarder l'aile.
- Le bâton 3 doit regarder la queue.
- Ils ne doivent jamais se chevaucher.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé leur méthode sur des images d'oiseaux (CUB-200) et de voitures (Stanford Cars).

Plus précis : L'IA fait moins d'erreurs de classification que les anciennes méthodes "interprétables".
Plus honnête : Quand l'IA dit "C'est un moineau", elle peut vous montrer exactement pourquoi : "Regardez, j'ai trouvé un bec, une aile et une queue, et ils sont tous distincts."
Pas de triche : Contrairement aux anciennes méthodes qui pouvaient "tricher" en se focalisant sur un seul détail, AMP est obligée de regarder plusieurs parties de l'image pour prendre sa décision.

🚀 En résumé

Imaginez un détective qui doit identifier un suspect.

L'ancienne IA disait : "C'est lui parce qu'il a un chapeau." (Et elle ignorait le reste).
AMP (la nouvelle IA) dit : "C'est lui parce qu'il a un chapeau, une moustache, et une cicatrice sur le menton, et ces trois éléments sont bien séparés."

Grâce à cette nouvelle géométrie mathématique, l'IA ne se contente plus de deviner ; elle comprend et explique sa décision de manière claire, fiable et détaillée, comme le ferait un expert humain. C'est un pas de géant vers une intelligence artificielle que l'on peut vraiment faire confiance.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Effondrement des Prototypes et la Collapse Neurale

Les réseaux de prototypes (Prototype Networks) sont conçus pour offrir une explication intrinsèque basée sur des cas (case-based reasoning) en apprenant des exemplaires visuels représentatifs pour chaque classe. Cependant, ces modèles souffrent systématiquement d'un phénomène appelé effondrement des prototypes (prototype collapse).

Le Symptôme : Au lieu d'apprendre une diversité de parties anatomiques distinctes (ex: aile, bec, queue pour un oiseau), les prototypes dégénèrent et convergent tous vers la même région spatiale hautement discriminative. Cela crée des preuves redondantes et nuit à l'interprétabilité compositionnelle.
La Cause Racine : Les auteurs attribuent ce problème non pas à une simple faille architecturale, mais à une nécessité géométrique découlant de la Collapse Neurale (Neural Collapse). Lors de la phase terminale de l'optimisation par perte d'entropie croisée (Cross-Entropy), la variance intra-classe est supprimée pour maximiser la marge inter-classe. Les caractéristiques spatiales d'une classe convergent vers un vecteur moyen unique. Dans ce contexte, les prototypes libres (non contraints) sont forcés de s'aligner sur ce vecteur moyen, réduisant le rang effectif de la matrice de prototypes à 1 (dégénérescence de rang).
Limites des approches actuelles : Les méthodes existantes utilisent des pénalités douces (soft penalties) pour encourager la diversité. Cependant, ces contraintes sont insuffisantes face à la force des gradients de l'entropie croisée et ne garantissent pas la faisabilité d'une diversité structurelle.

2. Méthodologie : Adaptive Manifold Prototypes (AMP)

Pour résoudre ce problème, les auteurs proposent AMP, un cadre qui remplace les prototypes euclidiens non contraints par des bases orthonormées sur une variété de Stiefel.

A. Contrainte Géométrique sur la Variété de Stiefel

Au lieu d'apprendre une matrice de prototypes $P_c$ libre, AMP paramétrise les prototypes comme une base orthonormée $U_c$ appartenant à la variété de Stiefel $St(D, K)$ , définie par $U_c^\top U_c = I_K$ .

Impact : Cette contrainte géométrique rigide rend la configuration de rang 1 (effondrement) impossible par construction. Les vecteurs de base sont forcés de rester orthogonaux, préservant ainsi la capacité de représentation et la diversité des parties.
Mesure de similarité : La similarité n'est plus une distance euclidienne, mais l'énergie de projection du vecteur de caractéristique locale sur le sous-espace orthogonal défini par $U_c$ .

B. Calibration Dynamique du Rang (Proximal Gradients)

Les catégories visuelles réelles ont des complexités sémantiques asymétriques. Imposer un rang fixe $K$ pour toutes les classes entraîne du surapprentissage ou du gaspillage.

AMP introduit une matrice de capacité diagonale non négative $\Sigma_c$ .
Une régularisation $\ell_1$ stricte est appliquée sur les poids de capacité.
Pour obtenir une parcimonie exacte (mise à zéro réelle des dimensions inutiles), l'optimisation utilise une descente de gradient proximale avec un opérateur de seuillage doux (soft-thresholding). Cela permet au rang effectif de chaque classe de s'adapter dynamiquement à sa complexité intrinsèque.

C. Fixation de Jauge Sémantique (Spatial Regularizers)

La contrainte de Stiefel garantit l'orthogonalité mathématique, mais pas la stabilité sémantique (l'orthogonalité est invariante par rotation). Pour que les bases correspondent à des parties visuelles distinctes et localisées, deux régularisateurs spatiaux sont ajoutés :

Minimisation de l'Entropie Spatiale : Encourage chaque vecteur de base à activer une région spatiale focalisée (faible entropie) plutôt qu'une distribution diffuse.
Pénalité de Chevauchement Spatial : Minimise la similarité cosinus entre les cartes de chaleur des différentes bases actives d'une même classe, garantissant que chaque prototype couvre une partie anatomique distincte et non chevauchante.

D. Optimisation Découplée

Le modèle utilise une stratégie d'optimisation hybride :

Mise à jour euclidienne pour le réseau de fond (backbone).
Mise à jour par gradient Riemannien (avec rétraction QR) pour les bases de Stiefel $U_c$ , respectant strictement la contrainte de variété.
Mise à jour proximale pour les poids de capacité $\Sigma_c$ .

3. Contributions Clés

Théorique : Établit un lien direct entre l'effondrement des prototypes et la dynamique terminale de la Collapse Neurale, démontrant que l'optimisation standard par entropie croisée détruit géométriquement la diversité nécessaire à l'interprétabilité compositionnelle.
Architecturale : Propose AMP, le premier cadre à utiliser des contraintes de variété de Stiefel rigides pour les prototypes, éliminant mathématiquement le risque d'effondrement de rang.
Méthodologique : Intègre une calibration de rang dynamique et des régularisateurs spatiaux pour transformer l'orthogonalité abstraite en preuves visuelles localisées et non redondantes.
Empirique : Démontre que la diversité géométrique n'entraîne pas de pénalité de précision, mais améliore au contraire la fidélité causale des explications.

4. Résultats Expérimentaux

Les expériences ont été menées sur des benchmarks de reconnaissance fine (CUB-200-2011 pour les oiseaux et Stanford Cars pour les voitures).

Précision de Classification : AMP atteint des performances State-of-the-Art (SOTA) parmi les modèles intrinsèquement interprétables.
- Sur CUB-200-2011 (ResNet50) : 88.4% (vs 86.6% pour le précédent meilleur modèle interprétable, MGProto).
- Sur Stanford Cars (ResNet50) : 92.0% (vs 90.5% pour MGProto).
- Ces résultats sont compétitifs avec des modèles "boîte noire" performants comme PMG.
Interprétabilité : AMP surpasse tous les modèles de référence sur les métriques de fidélité causale :
- Consistance (Consistency) : 76.80 (vs 71.40 pour MGProto).
- Stabilité (Stability) : 49.20.
- DAUC (Drop in AUC) : 3.45 (plus bas est mieux, indiquant que les explications sont cruciales pour la prédiction).
Évaluation Humaine : Une étude avec 50 participants a confirmé que les explications de AMP sont plus diversifiées, suffisantes et économes (moins de bruit) que celles de ProtoPNet ou TesNet. Le modèle adapte dynamiquement le nombre de prototypes actifs (ex: 3 pour les oiseaux, 4 pour les voitures) selon la complexité de l'image.

5. Signification et Conclusion

Cet article marque un changement de paradigme pour l'IA interprétable. Il démontre que la robustesse du raisonnement compositionnel ne peut pas être obtenue par de simples pénalités heuristiques ("soft penalties"), mais nécessite des frontières géométriques strictes.

En ancrant les prototypes sur la variété de Stiefel, AMP résout le problème fondamental de l'effondrement des prototypes causé par la Collapse Neurale. Cela permet de créer des modèles qui ne sont pas seulement précis, mais dont les décisions sont véritablement vérifiables, stables et alignées avec la cognition humaine (identification de parties distinctes). Ce travail suggère que l'avenir de l'IA explicable réside dans l'exploitation rigoureuse de la géométrie des variétés pour structurer l'espace de représentation.