This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Dit paper introduceert Adaptive Manifold Prototypes (AMP), een framework dat Stiefel-geometrie en Riemanniaanse optimalisatie gebruikt om prototype-instorting te voorkomen, waardoor zowel de classificatie-accuraatheid als de causaliteitsgetrouwheid van interpretable modellen aanzienlijk worden verbeterd.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom AI soms "blind" wordt en hoe we haar weer laten zien wat ze echt ziet

Stel je voor dat je een AI (een kunstmatige intelligentie) wilt leren om vogels te herkennen. Je wilt niet alleen dat de AI zegt: "Dat is een mus," maar ook waarom. Je wilt dat de AI kan zeggen: "Ik zie het, omdat ik de snavel, de vleugel en de staart heb herkend." Dit noemen we interpreteerbaarheid: de AI moet haar redenering kunnen uitleggen.

De meeste AI-modellen proberen dit te doen door "prototypen" te leren. Dat zijn als het ware voorbeeldplaatjes in het hoofd van de AI. Maar er is een groot probleem: deze modellen worden vaak lui. In plaats van naar de snavel, de vleugel en de staart te kijken, kijken ze allemaal naar precies hetzelfde puntje (bijvoorbeeld alleen de snavel). Ze worden allemaal hetzelfde. Dit fenomeen noemen de auteurs Prototype Collapse (instorting van de voorbeelden).

Het probleem: De "Neural Collapse"

De auteurs leggen uit dat dit niet toevallig is, maar een wiskundig ongeluk. Wanneer een AI traint om zo goed mogelijk te scoren (met een methode die "Cross-Entropy" heet), wordt ze gedwongen om alle verschillen binnen een soort weg te laten. Ze wordt zo gefocust op het vinden van het enige kenmerk dat een mus onderscheidt van een duif, dat ze vergeten om naar de andere delen te kijken.

Het is alsof je een klasje kinderen leert om auto's te herkennen. Als je ze alleen maar beloont als ze de koplamp zien, zullen ze allemaal alleen naar de koplamp staren en de rest van de auto negeren. Uiteindelijk kijken ze allemaal naar precies hetzelfde puntje. Ze zijn niet meer divers, maar allemaal identiek en blind voor de rest van het plaatje.

De oplossing: AMP (Adaptive Manifold Prototypes)

De auteurs van dit papier hebben een slimme oplossing bedacht, genaamd AMP. Ze gebruiken een wiskundig trucje uit de wereld van de meetkunde (de "Stiefel-variëteit", klinkt ingewikkeld, maar het is simpel te begrijpen).

Stel je voor dat je een groep detectives hebt die een moordzaak moeten oplossen.

  • De oude manier: Alle detectives lopen naar hetzelfde raam en staren naar hetzelfde glas. Ze krijgen allemaal dezelfde aanwijzing. Ze werken niet samen en missen de rest van het bewijs.
  • De AMP-methode: De auteurs dwingen de detectives om zich in een cirkel om de zaak te verdelen. Ze krijgen een onwrikbare regel: "Jij kijkt alleen naar het raam, jij alleen naar de deur, jij alleen naar de vloer." Ze mogen niet naar hetzelfde punt kijken.

In de wiskunde noemen ze dit orthogonale basisvectoren. Het betekent dat de verschillende "delen" die de AI leert herkennen, strikt van elkaar gescheiden zijn. Ze kunnen niet in elkaar oplossen.

Hoe werkt AMP in de praktijk?

  1. Diversiteit garanderen: Door de AI te dwingen om haar kennis op een "Stiefel-variëteit" te houden, is het wiskundig onmogelijk voor de AI om alle haar voorbeelden naar één punt te laten instorten. Ze moeten divers blijven.
  2. Slimme schaalvergroting (Dynamische Rank): Niet alle vogels hebben evenveel details nodig om te herkennen. Een mus heeft misschien 3 belangrijke delen, een adelaar misschien 5. AMP kan zelf beslissen hoeveel "detectives" (of delen) er nodig zijn voor een bepaalde vogel. Het schakelt de onnodige detectives uit. Dit voorkomt dat de AI overal naar kijkt waar niets te zien is.
  3. Locatie vastzetten: Soms weten de detectives niet waar ze moeten kijken, alleen dat ze ergens moeten kijken. AMP gebruikt extra regels om ze te dwingen om naar specifieke, niet-overlappende plekken te kijken (bijvoorbeeld: "Kijk naar de vleugel, niet naar de staart").

Wat levert dit op?

De auteurs hebben hun methode getest op foto's van vogels en auto's.

  • Beter herkennen: De AI werd niet alleen duidelijker, maar ook slimmer. Ze haalde betere scores dan andere modellen.
  • Betrouwbare uitleg: Als de AI zegt "Dit is een auto", kun je nu zien dat ze echt naar het wiel, de koplamp en de grille heeft gekeken, en niet naar één willekeurig puntje.
  • Geen "bluf": De uitleg die de AI geeft, klopt echt met hoe ze tot de conclusie komt.

Conclusie

Kortom: De auteurs hebben ontdekt dat AI-modellen van nature de neiging hebben om "blind" te worden door te focussen op één ding. Met hun nieuwe methode (AMP) dwingen ze de AI om een team van specialisten te zijn, waarbij elke specialist een ander deel van het plaatje bekijkt. Hierdoor wordt de AI niet alleen slimmer, maar ook eerlijker in haar uitleg. Het is een stap in de richting van AI die we echt kunnen vertrouwen, omdat we precies kunnen zien waar ze naar kijkt.