Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein großer Bibliothekar in einer riesigen Bibliothek mit Millionen Büchern. Deine Aufgabe ist es, ein Buch zu finden, das der Besucher gerade sucht.

Das alte Problem: Der chaotische Regalplan
Früher haben Computer-Programme (KI-Modelle) so gearbeitet, als wären alle Bücher völlig unabhängig voneinander. Wenn du nach einem Buch über „Hunde" suchst und die KI stattdessen „Kuh" sagt, war das für die alte KI genauso schlimm, wie wenn sie „Auto" oder „Banane" gesagt hätte. Für sie war jeder Fehler gleich schlecht.

Aber im echten Leben ist das nicht so. Wenn du nach einem „Golden Retriever" suchst und die KI „Labrador" sagt, ist das fast richtig – beide sind Hunde. Wenn sie aber „Auto" sagt, ist das ein riesiger Fehler. Die alte KI verstand diese feinen Unterschiede und die „Verwandtschaft" zwischen den Dingen nicht. Sie lernte nur, die Bücher in eine lange, flache Liste zu sortieren, ohne zu merken, dass einige Regale näher beieinander stehen als andere.

Die Lösung: Hier-COS (Der intelligente Bibliothekar)
Die Forscher aus diesem Papier haben eine neue Methode namens Hier-COS entwickelt. Stell dir das so vor:

Statt die Bücher nur in einer langen Liste zu haben, bauen sie ein mehrdimensionales, intelligentes Regalsystem.

Das Regal-System (Orthogonale Unterräume): Stell dir vor, jedes Regal hat eine eigene, eigene Richtung im Raum. Ein Regal für „Tiere", eines für „Vögel", eines für „Sperlinge". Diese Regale stehen senkrecht zueinander (orthogonal), damit sie sich nicht stören.
Die Hierarchie: Wenn du nach einem „Sperling" suchst, landet das Buch nicht nur im „Sperling"-Regal, sondern auch im „Vögel"-Regal und im „Tiere"-Regal. Die KI lernt, dass diese Regale miteinander verbunden sind.
Die Magie: Wenn die KI einen Fehler macht, landet das Buch automatisch in einem Regal, das dem richtigen sehr ähnlich ist (z. B. ein anderer Vogel), statt in einem völlig fremden Bereich (wie ein Auto). Sie lernt also, „bessere Fehler" zu machen.

Das neue Maßband: HOPS
Ein großes Problem bei solchen Systemen war bisher: Wie misst man, ob die KI wirklich gut ist?
Bisherige Messungen waren wie ein Lineal, das nur die Entfernung misst, aber nicht berücksichtigt, wo der Fehler passiert ist.

Beispiel: Wenn die KI „Auto" statt „Hund" sagt, war das früher genauso schlimm wie „Hund" statt „Sperling".
HOPS (Hierarchically Ordered Preference Score): Die Forscher haben ein neues Maßband erfunden. Es ist wie ein Bewertungssystem für eine Reise.
- Wenn du nach Paris suchst und die KI sagt „Berlin" (beide sind in Europa), bekommst du fast volle Punkte.
- Wenn sie „Tokio" sagt (ein anderer Kontinent), bekommst du weniger Punkte.
- Wenn sie „Mars" sagt, bekommst du null Punkte.
  HOPS belohnt die KI dafür, dass sie die „Familienbeziehungen" der Dinge versteht, nicht nur den exakten Treffer.

Warum ist das cool?

Es passt sich an: Manche Dinge sind schwer zu unterscheiden (z. B. 100 verschiedene Hunderassen), andere leicht (Hund vs. Auto). Hier-COS gibt den schwierigen Dingen mehr „Lernkapazität" (mehr Platz im Regal), damit sie sich besser trennen lassen.
Es ist konsistent: Wenn die KI sagt „Das ist ein Golden Retriever", muss sie automatisch auch sagen „Das ist ein Hund" und „Das ist ein Tier". Das alte System machte hier oft Widersprüche (z. B. „Hund" aber nicht „Tier"). Hier-COS verhindert das automatisch.
Es funktioniert überall: Die Forscher haben es an vier verschiedenen „Bibliotheken" (Datensätzen) getestet, von Flugzeugen über Katzen bis hin zu Tieren in der Wildnis. In fast allen Fällen war es besser als alles, was es vorher gab.

Zusammenfassung in einem Satz:
Hier-COS ist wie ein KI-Bibliothekar, der nicht nur weiß, wo das Buch steht, sondern auch versteht, welche Bücher „Verwandte" sind, und daher Fehler macht, die logisch und verständlich sind, statt willkürlich. Und mit dem neuen Maßband HOPS können wir endlich genau messen, wie gut dieser Bibliothekar wirklich ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Traditionelle Klassifikatoren behandeln alle Klassenlabels als gegenseitig unabhängig. Dies führt dazu, dass alle falschen Vorhersagen (negative Klassen) als gleich falsch betrachtet werden. In realen Szenarien existieren jedoch oft semantische Hierarchien (z. B. Taxonomien mit „ist-ein"- oder „teil-von"-Beziehungen), die eine partielle Ordnung der Präferenzen über die negativen Klassen definieren.

Das Kernproblem: Ein Modell, das eine Feinkörnige-Klasse falsch klassifiziert, sollte einen geringeren Fehler haben, wenn es eine semantisch ähnliche Klasse (z. B. innerhalb derselben Gattung) vorhersagt, als wenn es eine völlig fremde Klasse vorhersagt.
Mängel bestehender Methoden:
- Fehlende Hierarchie-Konsistenz: Viele Methoden lernen suboptimale Repräsentationen, bei denen die Vorhersagen auf verschiedenen Hierarchieebenen inkonsistent sind (z. B. Vorhersage einer falschen Oberklasse für eine korrekte Unterklass).
- Unzureichende Evaluierungsmetriken: Gängige Metriken wie Mistake Severity (MS) und Average Hierarchical Distance (AHD) sind oft schwer zu interpretieren, nicht normalisiert und permutation-invariant. Das bedeutet, sie können nicht zwischen einer „guten" Reihenfolge der Top-k-Vorhersagen und einer zufälligen, aber im Durchschnitt ähnlichen Distanz unterscheiden.
- Fehlende adaptive Kapazität: Bestehende Modelle bieten keine adaptive Lernkapazität für Klassen, die aufgrund ihrer Position in der Hierarchie (z. B. viele gemeinsame Vorfahren) schwieriger zu trennen sind.

2. Methodik: Hier-COS

Die Autoren stellen Hier-COS (Hierarchical Composition of Orthogonal Subspaces) vor, ein Framework, das Deep Features hierarchiebewusst macht, ohne separate Klassifikatoren für jede Ebene zu benötigen.

A. Hierarchy-Aware Vector Spaces (HAVS)

Die Autoren definieren formal einen Vektorraum $V_H$ , der durch einen Hierarchiebaum $T$ und eine Baum-Distanzfunktion $D_T$ (basierend auf dem Lowest Common Ancestor, LCA) induziert wird. Ein solcher Raum erfüllt die Bedingung, dass die Distanz zwischen einem Feature-Vektor und den Unterräumen der Klassen die semantische Ähnlichkeit widerspiegelt: Je näher zwei Klassen im Baum sind, desto näher liegen ihre Unterräume im Vektorraum.

B. Orthogonale Unterraum-Komposition

Das Herzstück von Hier-COS ist die Konstruktion eines Vektorraums $V_T$ mittels einer orthonormalen Basis $E = \{e_1, ..., e_n\}$ , wobei jeder Basisvektor einem Knoten im Hierarchiebaum zugeordnet ist.

Subräume: Für jeden Knoten $v_i$ wird ein Unterraum $V_i$ definiert, der durch die Vereinigung der Basisvektoren seiner Vorfahren ( $E^a_i$ ), des Knotens selbst ( $e_i$ ) und seiner Nachkommen ( $E^d_i$ ) aufgespannt wird.
Geometrische Eigenschaft: Da die Basen orthogonal sind, ist die Distanz zwischen einem Feature-Vektor und einem Subraum direkt proportional zur Anzahl der Basisvektoren, die im Pfad der Zielklasse, aber nicht im Pfad der anderen Klasse liegen. Dies entspricht exakt der LCA-Distanz im Baum.
Vorteil: Dies ermöglicht eine hierarchische Konsistenz: Wenn ein Feature-Vektor korrekt in den Subraum einer Blattklasse projiziert wird, liegt er automatisch auch in den Subräumen aller seiner Vorfahren.

C. Lernprozess und Verlustfunktion

Ein Backbone-Netzwerk (z. B. ResNet oder ViT) extrahiert Features, die durch einen leichten Transformationsmodul in den Hier-COS-Raum abgebildet werden.

Verlustfunktion:
1. Tree Path KL-Divergenz ( $L_{kl}$ ): Sie erzwingt eine Verteilung der Feature-Magnitude über die Basisvektoren des Pfades zur Zielklasse. Eine exponentiell steigende Gewichtungsfunktion sorgt dafür, dass die Magnitude stärker auf die feinkörnigen (Blatt-)Klassen konzentriert wird, während die Vorfahren die semantische Ähnlichkeit abbilden.
2. Regularisierung ( $L_{reg}$ ): Ein L1-Regularisierungsterm erzwingt Sparsität, sodass Feature-Vektoren nur Komponenten in den relevanten Subräumen haben und orthogonal zu irrelevanten Basen sind.
Inferenz: Die Vorhersage erfolgt durch Minimierung der orthogonaler Projektionsdistanz zu den Subräumen der jeweiligen Hierarchieebenen.

3. Neue Evaluierungsmetrik: HOPS

Um die Mängel bestehender Metriken zu beheben, führen die Autoren HOPS (Hierarchically Ordered Preference Score) ein.

Prinzip: HOPS bewertet nicht nur die Genauigkeit, sondern die Reihenfolge der Vorhersagen basierend auf der partiellen Präferenzordnung des Hierarchiebaums.
Berechnung: Es wird eine gewünschte Rangfolge ( $z$ ) basierend auf der LCA-Distanz zur Ground-Truth-Klasse definiert. Die tatsächliche Vorhersagereihenfolge ( $\hat{z}$ ) wird mit dieser verglichen. Die Metrik gewichtet die Abweichungen so, dass Fehler in der Reihenfolge von Klassen mit größerer semantischer Distanz stärker bestraft werden.
Vorteil: HOPS ist normalisiert, interpretierbar und unterscheidet zwischen einer „besten" und einer „schlechtesten" Vorhersagereihenfolge, was bei AHD/MS nicht der Fall ist. Für $k=1$ entspricht HOPS der Top-1-Accuracy.

4. Ergebnisse und Experimente

Hier-COS wurde auf vier Datensätzen evaluiert: FGVC-Aircraft, CIFAR-100, iNaturalist-19 und tieredImageNet-H (ein sehr tiefer und unausgewogener Datensatz).

State-of-the-Art (SOTA) Performance: Hier-COS erreicht auf allen Datensätzen die besten Ergebnisse in den neuen HOPS-Metriken und ist in den meisten Fällen auch bei MS und AHD überlegen.
Top-1 Genauigkeit: Das Modell verbessert die Top-1-Genauigkeit im Vergleich zu starken Baselines (wie HAFrame) signifikant (z. B. +2,42% auf iNaturalist-19 mit ViT-Backbone).
Hierarchische Konsistenz: Die Full Path Accuracy (FPA) ist bei Hier-COS deutlich höher, was beweist, dass die Vorhersagen auf allen Ebenen konsistent sind.
Effizienz: Im Gegensatz zu Methoden, die separate Klassifikatoren pro Ebene trainieren, verwendet Hier-COS einen einzigen Klassifikator, was den Rechenaufwand senkt.
Transfer Learning: Das Framework funktioniert effektiv auch mit eingefrorenen Features von vortrainierten ViT-Backbones, was zeigt, dass die Transformation in den Hier-COS-Raum die Hierarchiebewusstheit nachträglich lernen kann.

5. Bedeutung und Beiträge

Die Arbeit leistet mehrere wesentliche Beiträge zur Forschung im Bereich des hierarchischen maschinellen Lernens:

Theoretische Fundierung: Die Definition von HAVS und der Beweis, dass Hier-COS eine hierarchisch konsistente Darstellung garantiert.
Einheitliches Framework: Es ist das erste Framework, das „hierarchiebewusste Mehrklassen-Klassifikation" und „hierarchische Mehr-Ebenen-Klassifikation" in einem einzigen Modell vereint.
Adaptive Kapazität: Das Modell passt die Lernkapazität automatisch an die Komplexität der Klasse an (d. h. Klassen mit vielen gemeinsamen Vorfahren erhalten mehr Dimensionen im Feature-Raum).
Neue Evaluierungsstandards: Die Einführung von HOPS adressiert langjährige Kritikpunkte an der Evaluierung hierarchischer Modelle und bietet eine robustere Metrik für den Vergleich von Algorithmen.

Zusammenfassend demonstriert Hier-COS, dass durch die geometrische Strukturierung des Feature-Raums mittels orthogonaler Unterräume sowohl die Genauigkeit als auch die Qualität der Fehler (Severity of Mistakes) und die Konsistenz der Vorhersagen signifikant verbessert werden können.

Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces

1. Problemstellung

2. Methodik: Hier-COS

A. Hierarchy-Aware Vector Spaces (HAVS)

B. Orthogonale Unterraum-Komposition

C. Lernprozess und Verlustfunktion

3. Neue Evaluierungsmetrik: HOPS

4. Ergebnisse und Experimente

5. Bedeutung und Beiträge

Mehr davon

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models