Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme bibliotheek beheert met miljoenen boeken. Als je iemand vraagt om een boek over "honden" te vinden, maar ze brengen je in plaats daarvan een boek over "auto's", is dat een grote fout. Maar als ze je een boek over "wolven" geven, is dat ook niet helemaal goed, maar het is veel dichter bij de waarheid dan een boek over auto's.

In de wereld van kunstmatige intelligentie (AI) maken computers vaak zulke fouten. De meeste AI-modellen behandelen alle fouten als even erg. Voor hen is "wolf" en "auto" even ver weg van "hond". Dat is in het echte leven niet zo.

De auteurs van dit paper, Hier-COS, hebben een slimme nieuwe manier bedacht om AI te leren begrijpen dat sommige fouten "minder erg" zijn dan andere, omdat ze semantisch dichter bij elkaar staan.

Hier is de uitleg in gewone taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Gelijke Fouten"-Methode

Stel je voor dat je een leraar hebt die alle antwoorden als "goed" of "fout" ziet. Als een leerling "wolf" zegt in plaats van "hond", krijgt hij een nul. Als hij "auto" zegt, krijgt hij ook een nul. De leraar ziet niet dat "wolf" eigenlijk een goede poging was, omdat wolven en honden familie zijn.

Bestaande AI-modellen doen precies dit. Ze zien alle negatieve antwoorden als even verkeerd. Dit werkt slecht in de echte wereld, waar we een hiërarchie (een stamboom) hebben: Hond is een Zoogdier, en een Wolf is ook een Zoogdier. Ze delen een "grootvader".

2. De Oplossing: Hier-COS (De Slimme Boekplank)

De auteurs noemen hun methode Hier-COS. Stel je voor dat ze de bibliotheek niet meer als een grote, rommelige stapel boeken zien, maar als een slimme, hiërarchische boekplank.

De Orthogonale Subruimtes (De Schuifdeuren):
In de oude modellen zaten alle boeken in één grote kamer. Als je naar "hond" zocht, kon je per ongeluk "wolf" tegenkomen omdat ze te dicht bij elkaar lagen.
Bij Hier-COS maakt de AI een speciaal soort ruimte aan voor elke categorie. Denk aan een gebouw met schuifdeuren.
- De deur voor "Zoogdieren" is groot en omvat alles.
- Binnen die deur zit een kleinere kamer voor "Honden".
- En daar weer een kleinere kamer voor "Duitse Herders".
- De deuren staan loodrecht op elkaar (dat is het "orthogonale" deel). Dit zorgt ervoor dat de AI heel duidelijk kan zien: "Ah, dit is een hond, maar het zit ook in de 'Zoogdier'-ruimte."
Adaptieve Capaciteit (De Flexibele Ruimte):
Soms zijn sommige onderwerpen heel complex (bijvoorbeeld: het onderscheiden van 50 soorten vogels) en soms heel simpel (het onderscheiden van een auto van een boom).
Oude modellen gaven aan alles evenveel ruimte. Hier-COS is slim: het geeft de complexe groepen (zoals de vogels) een grote, flexibele kamer met veel details, en de simpele groepen een kleine, strakke kamer. De AI past dus de "leerruimte" aan op basis van hoe moeilijk het is om iets te onderscheiden.

3. Het Nieuwe Scorebord: HOPS (De Ranglijst)

In de wetenschap gebruiken ze vaak cijfers om te kijken hoe goed een AI is. De auteurs zeggen: "De oude cijfers zijn verouderd!"

Oude cijfers: Kijken alleen naar het eerste antwoord (Top-1). Als de AI de wolf als tweede noemt en de auto als eerste, telt dat als een complete mislukking.
Nieuwe cijfers (HOPS): Dit is als een ranglijst in een wedstrijd. Als de AI de wolf als tweede noemt, krijgt hij nog steeds punten, omdat hij dichter bij de waarheid zat dan bij de auto. HOPS kijkt naar de volgorde van de antwoorden. Het beloont de AI voor het begrijpen van de familiebanden, zelfs als hij de exacte naam niet direct raakt.

4. Wat hebben ze bewezen?

De auteurs hebben hun methode getest op vier moeilijke datasets (zoals het herkennen van vliegtuigtypes, dieren in de natuur en auto's).

Resultaat: Hun AI maakt minder "dure" fouten. Als hij een fout maakt, is het vaak een fout die logisch is (bijv. een wolf in plaats van een hond), in plaats van een onzinfout (een auto in plaats van een hond).
Consistentie: Als de AI zegt dat iets een "Duitse Herder" is, zegt hij automatisch ook dat het een "Hond" en een "Zoogdier" is. Oude modellen deden dat niet altijd; ze konden zeggen "Duitse Herder" maar "Geen Zoogdier", wat logisch onmogelijk is. Hier-COS voorkomt dit van nature.

Samenvattend

Hier-COS is als het geven van een stamboom aan een AI. In plaats van te leren dat alles losstaat van elkaar, leert de AI dat alles verbonden is.

Het gebruikt speciale ruimtes (deuren) om verwante dingen dicht bij elkaar te houden.
Het past de grootte van de ruimte aan aan de moeilijkheid van het onderwerp.
Het gebruikt een nieuwe score die beloont als je de "familie" van het juiste antwoord raakt, zelfs als je de naam niet perfect hebt.

Het resultaat is een AI die niet alleen slimmer is, maar ook menschelijker in zijn fouten: hij maakt fouten die logisch begrijpelijk zijn, in plaats van willekeurige flauwekul.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Traditionele classificatie-algoritmen behandelen alle klassenlabels als onderling onafhankelijk. Dit betekent dat elke verkeerde voorspelling als even ernstig wordt beschouwd, ongeacht de semantische relatie tussen de voorspelde en de ware klasse. In real-world scenario's (zoals beeldherkenning) bestaat er echter vaak een semantische hiërarchie (bijv. "een gouden reiger is een vogel, en een vogel is een dier"). Een fout waarbij een gouden reiger wordt verward met een andere vogelsoort is semantisch minder ernstig dan een fout waarbij hij wordt verward met een vis.

Bestaande methoden voor hiërarchie-bewuste classificatie hebben twee belangrijke tekortkomingen:

Suboptimale representaties: Ze leren vaak suboptimale feature-representaties, ondanks concurrerende scores op bestaande metrieken.
Gebrekkige evaluatiemetrieken: Bestaande metrieken zoals Mistake Severity (MS) en Average Hierarchical Distance (AHD) zijn onvoldoende. Ze zijn vaak permutatie-invariant (de volgorde van de top-k voorspellingen telt niet mee) en afhankelijk van de specifieke structuur van de hiërarchieboom, waardoor ze moeilijk te interpreteren en te vergelijken zijn.

2. Methodologie: Hier-COS

De auteurs introduceren Hier-COS (Hierarchical Composition of Orthogonal Subspaces), een raamwerk dat diepe features hiërarchie-bewust maakt via een unieke vectorruimteconstructie.

A. Hiërarchie-bewuste Vectorruimtes (HAVS)

Het paper definieert eerst een Hierarchy-Aware Vector Space (HAVS). Dit is een vectorruimte waarin de afstand tussen een feature-vector en de subruimte van een klasse evenredig is met de semantische afstand (bepaald door de Lowest Common Ancestor of LCA) in de hiërarchieboom. Als twee klassen semantisch dichter bij elkaar staan, moeten hun subruimtes in de feature-ruimte ook dichter bij elkaar liggen.

B. Constructie via Orthogonale Subspaces

Hier-COS bouwt een dergelijke HAVS op door gebruik te maken van orthogonale subspaces:

Er wordt een orthonormale basis $E = \{e_1, ..., e_n\}$ gedefinieerd, gekoppeld aan alle knopen (klassen) in de hiërarchieboom.
Voor elke klasse $v_i$ wordt een subruimte $V_i$ gedefinieerd die wordt opgespannen door de basisvectoren van zijn voorouders, zichzelf en zijn nakomelingen.
Voordeel: Dit zorgt ervoor dat subruimtes van semantisch verwante klassen overlappen (ze delen basisvectoren van gemeenschappelijke voorouders), terwijl ze orthogonaal blijven ten opzichte van volledig verschillende klassen.
Adaptieve Capaciteit: De dimensie van de subruimte past zich automatisch aan de complexiteit van de klasse aan. Superklassen (bovenin de boom) hebben hogere dimensies om diverse kenmerken te vangen, terwijl fijne klassen (bladeren) beperktere dimensies hebben voor specificiteit.

C. Lerend Probleem en Loss Functie

Het model gebruikt een bestaande backbone (bijv. ResNet of ViT) en leert een lichte transformatielaag die de features afbeeldt naar deze Hier-COS ruimte.

Loss Functie: De training gebruikt een combinatie van:
1. Tree Path KL-divergence: Zorgt ervoor dat de feature-vector een specifieke verdeling heeft over de basisvectoren langs het pad van de wortel naar het blad, waarbij de gewichten exponentieel toenemen richting het blad (om fijne discriminatie te bevorderen).
2. Regularisatie Term ( $L_{reg}$ ): Zorgt voor sparsiteit, zodat de feature-vector voornamelijk in de subruimte van de juiste klasse ligt en niet in de orthogonale complementen.

D. Unified Classification

Een uniek kenmerk is dat Hier-COS zowel hiërarchie-bewuste multi-class classificatie (voorspellen van het juiste blad) als hiërarchische multi-level classificatie (voorspellen van klassen op alle niveaus van de boom) kan uitvoeren met één enkele classifier, zonder extra hoofdjes of complexe constraints.

3. Evaluatie: HOPS

Om de tekortkomingen van bestaande metrieken aan te pakken, introduceren de auteurs HOPS (Hierarchically Ordered Preference Score).

Principe: HOPS is een rangschikking-gebaseerde metriek die de voorspelde volgorde van klassen vergelijkt met de ideale hiërarchische voorkeurvolgorde (bepaald door LCA-afstanden).
Voordelen:
- Het houdt rekening met de volgorde van de top-k voorspellingen (in tegenstelling tot AHD).
- Het is genormaliseerd en onafhankelijk van de specifieke boomstructuur.
- Het combineert top-1 nauwkeurigheid en de ernst van fouten in één score.
- Voor $k=1$ is HOPS gelijk aan de top-1 nauwkeurigheid.

4. Resultaten

Het model is geëvalueerd op vier uitdagende datasets: FGVC-Aircraft (3 niveaus), CIFAR-100 (5 niveaus), iNaturalist-19 (7 niveaus) en tieredImageNet-H (12 niveaus, zeer diep en onbalans).

State-of-the-Art (SOTA) Prestaties: Hier-COS behaalde de beste resultaten op alle hiërarchische metrieken (MS, AHD, HOPS) voor alle datasets.
Top-1 Nauwkeurigheid: In bijna alle gevallen verbeterde Hier-COS ook de top-1 nauwkeurigheid ten opzichte van de beste bestaande methoden (zoals HAFrame en Flamingo), zelfs op de zeer complexe tieredImageNet-H dataset.
Hiërarchische Consistentie: Het model toonde een significant verbeterde Full Path Accuracy (FPA), wat betekent dat de voorspellingen op alle niveaus van de boom consistent zijn met elkaar (een fout op een hoger niveau leidt niet noodzakelijk tot een fout op een lager niveau als de structuur klopt).
Efficiëntie: In tegenstelling tot methoden die meerdere classifiers trainen, gebruikt Hier-COS één enkele transformatielaag, wat het rekenkundig efficiënter maakt.

5. Betekenis en Bijdragen

De belangrijkste bijdragen van dit werk zijn:

Theoretische Garantie: Het bewijst dat Hier-COS een HAVS is en dus theoretisch gegarandeerd hiërarchisch consistent is.
Unificatie: Het is het eerste raamwerk dat hiërarchie-bewuste multi-class en multi-level classificatie verenigt in één model.
Adaptieve Capaciteit: Het lost het probleem op van het toewijzen van leerkracht aan complexe klassen door de dimensie van de subruimtes dynamisch aan te passen aan de hiërarchie.
Nieuwe Evaluatiestandaard: Het introduceert HOPS als een superieure, interpreteerbare metriek die de beperkingen van MS en AHD oplost, waardoor eerlijke vergelijkingen tussen modellen mogelijk worden.
Praktische Toepasbaarheid: Het werkt effectief met frozen backbones (zoals ViT), wat betekent dat het makkelijk kan worden toegepast op bestaande pre-getrainde modellen zonder deze volledig opnieuw te hoeven trainen.

Kortom, Hier-COS biedt een robuuste, theoretisch onderbouwde oplossing voor het leren van hiërarchische features, verbetert de kwaliteit van voorspellingen (minder ernstige fouten) en introduceert een betere manier om deze prestaties te meten.