This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom AI soms "blind" wordt en hoe we haar weer laten zien wat ze echt ziet

Stel je voor dat je een AI (een kunstmatige intelligentie) wilt leren om vogels te herkennen. Je wilt niet alleen dat de AI zegt: "Dat is een mus," maar ook waarom. Je wilt dat de AI kan zeggen: "Ik zie het, omdat ik de snavel, de vleugel en de staart heb herkend." Dit noemen we interpreteerbaarheid: de AI moet haar redenering kunnen uitleggen.

De meeste AI-modellen proberen dit te doen door "prototypen" te leren. Dat zijn als het ware voorbeeldplaatjes in het hoofd van de AI. Maar er is een groot probleem: deze modellen worden vaak lui. In plaats van naar de snavel, de vleugel en de staart te kijken, kijken ze allemaal naar precies hetzelfde puntje (bijvoorbeeld alleen de snavel). Ze worden allemaal hetzelfde. Dit fenomeen noemen de auteurs Prototype Collapse (instorting van de voorbeelden).

Het probleem: De "Neural Collapse"

De auteurs leggen uit dat dit niet toevallig is, maar een wiskundig ongeluk. Wanneer een AI traint om zo goed mogelijk te scoren (met een methode die "Cross-Entropy" heet), wordt ze gedwongen om alle verschillen binnen een soort weg te laten. Ze wordt zo gefocust op het vinden van het enige kenmerk dat een mus onderscheidt van een duif, dat ze vergeten om naar de andere delen te kijken.

Het is alsof je een klasje kinderen leert om auto's te herkennen. Als je ze alleen maar beloont als ze de koplamp zien, zullen ze allemaal alleen naar de koplamp staren en de rest van de auto negeren. Uiteindelijk kijken ze allemaal naar precies hetzelfde puntje. Ze zijn niet meer divers, maar allemaal identiek en blind voor de rest van het plaatje.

De oplossing: AMP (Adaptive Manifold Prototypes)

De auteurs van dit papier hebben een slimme oplossing bedacht, genaamd AMP. Ze gebruiken een wiskundig trucje uit de wereld van de meetkunde (de "Stiefel-variëteit", klinkt ingewikkeld, maar het is simpel te begrijpen).

Stel je voor dat je een groep detectives hebt die een moordzaak moeten oplossen.

De oude manier: Alle detectives lopen naar hetzelfde raam en staren naar hetzelfde glas. Ze krijgen allemaal dezelfde aanwijzing. Ze werken niet samen en missen de rest van het bewijs.
De AMP-methode: De auteurs dwingen de detectives om zich in een cirkel om de zaak te verdelen. Ze krijgen een onwrikbare regel: "Jij kijkt alleen naar het raam, jij alleen naar de deur, jij alleen naar de vloer." Ze mogen niet naar hetzelfde punt kijken.

In de wiskunde noemen ze dit orthogonale basisvectoren. Het betekent dat de verschillende "delen" die de AI leert herkennen, strikt van elkaar gescheiden zijn. Ze kunnen niet in elkaar oplossen.

Hoe werkt AMP in de praktijk?

Diversiteit garanderen: Door de AI te dwingen om haar kennis op een "Stiefel-variëteit" te houden, is het wiskundig onmogelijk voor de AI om alle haar voorbeelden naar één punt te laten instorten. Ze moeten divers blijven.
Slimme schaalvergroting (Dynamische Rank): Niet alle vogels hebben evenveel details nodig om te herkennen. Een mus heeft misschien 3 belangrijke delen, een adelaar misschien 5. AMP kan zelf beslissen hoeveel "detectives" (of delen) er nodig zijn voor een bepaalde vogel. Het schakelt de onnodige detectives uit. Dit voorkomt dat de AI overal naar kijkt waar niets te zien is.
Locatie vastzetten: Soms weten de detectives niet waar ze moeten kijken, alleen dat ze ergens moeten kijken. AMP gebruikt extra regels om ze te dwingen om naar specifieke, niet-overlappende plekken te kijken (bijvoorbeeld: "Kijk naar de vleugel, niet naar de staart").

Wat levert dit op?

De auteurs hebben hun methode getest op foto's van vogels en auto's.

Beter herkennen: De AI werd niet alleen duidelijker, maar ook slimmer. Ze haalde betere scores dan andere modellen.
Betrouwbare uitleg: Als de AI zegt "Dit is een auto", kun je nu zien dat ze echt naar het wiel, de koplamp en de grille heeft gekeken, en niet naar één willekeurig puntje.
Geen "bluf": De uitleg die de AI geeft, klopt echt met hoe ze tot de conclusie komt.

Conclusie

Kortom: De auteurs hebben ontdekt dat AI-modellen van nature de neiging hebben om "blind" te worden door te focussen op één ding. Met hun nieuwe methode (AMP) dwingen ze de AI om een team van specialisten te zijn, waarbij elke specialist een ander deel van het plaatje bekijkt. Hierdoor wordt de AI niet alleen slimmer, maar ook eerlijker in haar uitleg. Het is een stap in de richting van AI die we echt kunnen vertrouwen, omdat we precies kunnen zien waar ze naar kijkt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: Prototype Collapse en Neural Collapse

De kern van dit onderzoek ligt in het probleem van prototype collapse binnen prototype-netwerken (een type model dat uitlegbaarheid biedt door te verwijzen naar leerzame voorbeelden). Hoewel deze netwerken theoretisch een intuïtief kader bieden voor redenering, vertonen ze in de praktijk vaak een homogenisatie: meerdere prototypes degenereren naar exact dezelfde, hoogst discriminatieve ruimtelijke regio. Dit leidt tot redundante bewijzen en ondermijnt de fundamentele premissen van compositional uitlegbaarheid.

De auteurs attribueren dit falen niet aan een architecturale fout, maar aan een geometrische onvermijdelijkheid die voortkomt uit Neural Collapse. Tijdens de trainingsfase van diepe neurale netwerken, gedreven door cross-entropy optimalisatie, wordt de intra-klasselijke variantie agressief onderdrukt om de inter-klasselijke marge te maximaliseren. Hierdoor convergeren de ruimtelijke kenmerken van een klasse naar een enkel, symmetrisch gemiddeld vectorpunt. Voor prototype-netwerken betekent dit dat de vrij geoptimaliseerde vectoren in een laag-dimensionale, bijna collineaire toestand "instorten" (rank-1 degeneratie), waardoor het model geen onderscheidende anatomische onderdelen meer kan identificeren. Bestaande methoden gebruiken zachte straffende termen (soft penalties) om diversiteit te bevorderen, maar deze zijn onvoldoende om de sterke gradiënten van cross-entropy te weerstaan.

Methodologie: Adaptive Manifold Prototypes (AMP)

Om dit probleem op te lossen, stellen de auteurs Adaptive Manifold Prototypes (AMP) voor. Dit raamwerk vervangt de onbeperkte Euclidische prototypes door een rigide geometrische structuur gebaseerd op de Stiefel-maand (Stiefel manifold).

De methodologie bestaat uit vier kerncomponenten:

Orthonormale Bases op de Stiefel-maand:
In plaats van prototypes als vrije vectoren te parametriseren, worden ze gedefinieerd als een orthonormale basis $U_c$ op de Stiefel-maand $St(D, K)$ . Dit betekent dat $U_c^T U_c = I_K$ . Door deze harde geometrische constraint, is het voor het model fysiek onmogelijk om alle basisvectoren naar één enkel punt te laten instorten (rank-1 collapse). De prototypes blijven structureel orthogonaal, wat de representatiediversiteit garandeert.
Dynamische Rangkalibratie via Proximale Gradiënten:
Niet alle klassen vereisen evenveel prototypes (bijv. een vogelsoort heeft misschien 3 relevante onderdelen, een auto 4). AMP introduceert een leerbare, niet-negatieve diagonale capaciteitsmatrix $\Sigma_c$ .
- De projectie-energie wordt gewogen door deze capaciteit.
- Om overfitting en redundantie te voorkomen, wordt een $L_1$ -sparsiteitsregularisatie toegepast.
- Omdat standaard SGD geen exacte nullen produceert, gebruiken de auteurs een proximale gradiëntafdaalstap met een soft-thresholding operator. Dit zorgt voor exacte "dimensie-instorting" van overbodige bases, waardoor het model dynamisch de optimale rang (aantal actieve prototypes) per klasse leert.
Semantische Gauge Fixing (Ruimtelijke Regularisatie):
Hoewel de Stiefel-constraint orthogonale kolommen garandeert, blijft er rotatie-ambiguïteit bestaan (verschillende orthogonale bases kunnen dezelfde projectie geven). Om dit op te lossen en semantisch stabiele, gelokaliseerde onderdelen te vinden, introduceert AMP twee ruimtelijke regularisatoren:
- Minimalisatie van Ruimtelijke Entropie: Moedigt aan dat de activatiekaarten van elke basis gefocust en gelokaliseerd zijn (bijv. alleen op de snavel, niet verspreid over de hele vogel).
- Overlap Penalty: Straft de overlap tussen de activatiekaarten van verschillende actieve bases binnen dezelfde klasse, zodat ze naar verschillende, niet-overlappende onderdelen wijzen.
Ontkoppelde Optimalisatie:
Het model gebruikt een hybride optimalisatiestrategie:
- De backbone (feature extractor) wordt bijgewerkt met standaard Euclidische SGD.
- De Stiefel-bases ( $U_c$ ) worden bijgewerkt via Riemanniaanse gradiëntafdaal (met QR-retractie) om de manifold-constraints te behouden.
- De capaciteitsmatrices ( $\Sigma_c$ ) worden bijgewerkt via proximale gradiënten voor sparsiteit.

Belangrijkste Bijdragen

Theoretisch Inzicht: De auteurs leggen de link tussen prototype collapse en de terminale dynamiek van Neural Collapse, en tonen aan dat cross-entropy optimalisatie geometrisch onbeperkte prototypes naar laag-rang degeneratie drijft.
AMP Framework: Een nieuw raamwerk dat prototypes als orthonormale bases op de Stiefel-maand formuleert, waardoor rank-1 collapse structureel onmogelijk wordt gemaakt.
Dynamische Rang & Ruimtelijke Stabiliteit: De combinatie van proximale rangkalibratie en ruimtelijke regularisatoren zorgt voor een adaptief aantal prototypes per klasse en garandeert gelokaliseerde, niet-overlappende bewijzen zonder handmatige annotaties van onderdelen.

Resultaten

AMP is geëvalueerd op fijnkorrelige visuele classificatie-benchmarks: CUB-200-2011 (vogels) en Stanford Cars.

Classificatieprestaties: AMP bereikt state-of-the-art (SOTA) resultaten onder intrinsiek interpreteerbare modellen. Op CUB-200-2011 (ResNet50) bereikt AMP 88.4% nauwkeurigheid (vs. 86.6% voor de vorige beste, MGProto) en is het concurrerend met "black-box" modellen. Op Stanford Cars behaalt het 92.0%.
Interpreteerbaarheid: AMP overtreft alle bestaande modellen op maatstaven voor causaliteit en stabiliteit:
- Consistency: 76.80 (CUB) en 50.20 (Cars).
- Stability: 49.20 (CUB) en 76.40 (Cars).
- OIRR & DAUC: AMP behaalt de beste scores, wat aangeeft dat de uitleggen causaal gekoppeld zijn aan de beslissingen van het model en robuust zijn tegen perturbaties.
Ablatie-studies: Het verwijderen van de Stiefel-constraint leidt tot een drastische daling in zowel nauwkeurigheid als uitlegbaarheid, wat bewijst dat de harde geometrische grenzen essentieel zijn.
Menselijke Evaluatie: Een studie met 50 deelnemers bevestigde dat AMP aanzienlijk beter scoort op "Part Diversity" (onderscheidende gebieden) en "Explanation Parsimony" (minimale, noodzakelijke bewijzen) vergeleken met ProtoPNet en TesNet.

Significantie

Dit werk markeert een paradigmaverschuiving in het veld van Explainable AI (XAI). Het toont aan dat robuuste, compositional redenering niet kan worden bereikt door alleen zachte straffende termen toe te voegen aan standaard optimalisatie. In plaats daarvan is een fundamentele geometrische herstructurering van de representatieruimte noodzakelijk. Door de Stiefel-maand te benutten, biedt AMP een wiskundig gegarandeerde manier om prototype-collapse te voorkomen, wat leidt tot modellen die niet alleen nauwkeuriger zijn, maar ook uitleggen die menselijk begrijpelijk, stabiel en causaal betrouwbaar zijn. Dit is van cruciaal belang voor toepassingen in hoog-risico domeinen zoals medische diagnose.

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Het probleem: De "Neural Collapse"

De oplossing: AMP (Adaptive Manifold Prototypes)

Hoe werkt AMP in de praktijk?

Wat levert dit op?

Conclusie

Probleemstelling: Prototype Collapse en Neural Collapse

Methodologie: Adaptive Manifold Prototypes (AMP)

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes