WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein sehr gut ausgebildeter Koch, der nur zwei Dinge kennt: Apfel und Rot. Sie haben tausende Bilder von roten Äpfeln gesehen und gelernt, dass "rot" und "Apfel" zusammengehören.

Jetzt kommt ein Gast in Ihr Restaurant und bestellt einen grünen Apfel.

Ein herkömmliches KI-Modell (wie die alten Methoden in der Forschung) würde wahrscheinlich raten: "Das muss ein roter Apfel sein, weil ich nur rote Äpfel kenne!" Oder es würde völlig verwirrt sein. Es hat das Konzept "Apfel" gelernt, aber nicht, wie sich dieses Konzept verändert, wenn die Farbe "grün" hinzukommt. Es ist starr wie ein Roboter, der nur das auswendig gelernt hat, was ihm beigebracht wurde.

Die Forscher aus diesem Papier haben eine Lösung namens WARM-CAT entwickelt. Der Name ist ein Wortspiel: Es ist eine "Warme Katze" (Warm-Cat), die sich anpasst, aber auch ein Akronym für einen sehr cleveren Prozess.

Hier ist die einfache Erklärung, wie WARM-CAT funktioniert, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Label-Space Shift" (Die veränderte Speisekarte)

Stellen Sie sich vor, Sie haben eine Speisekarte gelernt, die nur "roter Apfel" und "gelbe Banane" enthält. Plötzlich tauchen im Restaurant Gäste auf, die "grüne Banane" oder "blauer Apfel" bestellen.

Das alte Problem: Die KI starrt auf die Speisekarte, sieht "grüne Banane" nicht, und versucht verzweifelt, sie als "gelbe Banane" zu verkaufen. Sie passt sich nicht an, weil ihre "Gehirnstruktur" nach dem Training eingefroren wurde.
Die Folge: Die KI macht Fehler, weil sich die Realität (die Gäste) geändert hat, aber ihr Wissen statisch geblieben ist.

2. Die Lösung: WARM-CAT (Der lernende Kellner)

WARM-CAT ist wie ein Kellner, der nicht starr auf die alte Speisekarte schaut, sondern während des Abends lernt.

A. Die "Warme Start"-Strategie (Der Vorspeisen-Teller)

Bevor der Kellner den ersten Gast bedient, bereitet er sich vor.

Das Problem: Wenn der Kellner leer anfängt, wird er bei den ersten Gästen raten und sich auf Fehler festlegen.
Die Lösung: Der Kellner füllt seinen Kopf mit Bildern von den Dingen, die er schon kennt (z. B. rote Äpfel). Aber er macht etwas Geniales: Er nutzt sein Wissen über die Sprache, um sich vorzustellen, wie ein "grüner Apfel" aussehen könnte, auch wenn er ihn noch nie gesehen hat. Er nutzt die Logik: "Wenn Apfel + Rot = Roter Apfel, dann muss Apfel + Grün = Grüner Apfel sein."
Der Effekt: Er startet nicht bei Null, sondern mit einer fundierten Vermutung. Das verhindert, dass er sich sofort auf die ersten zufälligen Fehler festlegt.

B. Der "Prioritäts-Wartezimmer" (Das Gedächtnis der besten Bilder)

Während des Abends kommen viele Gäste. Nicht alle sind gleich wichtig.

Die Idee: Der Kellner hat ein kleines, exklusives Wartezimmer (eine "Priority Queue"). Dort legt er nur die besten, klarsten Bilder von den Gerichten ab, die er gerade gesehen hat.
Wie es funktioniert: Wenn ein Gast einen "blauen Apfel" bestellt und der Kellner ist sich zu 99% sicher, dass es ein blauer Apfel ist, legt er dieses Bild in das Wartezimmer. Wenn das Zimmer voll ist und ein neuer, noch besserer Gast kommt, wird das schlechteste Bild rausgeworfen.
Der Vorteil: Der Kellner lernt nicht aus jedem einzelnen, vielleicht unscharfen Foto, sondern nur aus den hochwertigen Beispielen, die er im Laufe des Abends sammelt. Er baut sich sozusagen eine neue, aktualisierte Speisekarte aus den besten Momenten des Abends.

C. Der "Adaptive Regler" (Nicht zu viel, nicht zu wenig)

Manchmal ist ein Gast sehr laut und verwirrend. Wenn der Kellner zu schnell lernt, vergisst er vielleicht, wie ein roter Apfel aussieht, nur weil er einen grünen gesehen hat.

Die Lösung: WARM-CAT hat einen cleveren Regler (den "Adaptive Update Weight").
Die Analogie: Wenn ein Gast etwas bestellt, das dem Kellner sehr bekannt vorkommt (z. B. ein roter Apfel), ändert er seine Speisekarte kaum. Er ist vorsichtig. Wenn aber ein Gast etwas ganz Neues bestellt (z. B. ein "neon-grüner Apfel"), der stark von allem abweicht, dann passt der Kellner seine Speisekarte stärker an, um dieses Neue zu verstehen.
Das Ergebnis: Er vergisst das Alte nicht, lernt aber das Neue schnell dazu.

3. Die neue Küche: C-Fashion

Die Forscher haben gemerkt, dass die alten Testkataloge (Datenbanken) für Kleidung sehr chaotisch und voller Fehler waren (wie ein Kochbuch, in dem "Hühnchen" manchmal als "Auto" bezeichnet wird).

Sie haben eine neue, saubere Datenbank namens C-Fashion erstellt. Stellen Sie sich das vor wie einen neuen, perfekt organisierten Kochkurs speziell für Mode. Hier können sie beweisen, dass ihre Methode wirklich funktioniert, weil die "Rezepte" (die Daten) endlich sauber sind.

Zusammenfassung: Warum ist das genial?

Stellen Sie sich vor, Sie lernen eine Sprache.

Alte KI: Sie lernen Vokabeln im Unterricht. Am nächsten Tag kommen neue Wörter vor, die Sie nicht kennen. Sie bleiben starr und raten falsch.
WARM-CAT: Sie lernen im Unterricht die Grundlagen. Am nächsten Tag gehen Sie in die Stadt (Testzeit). Sie hören neue Wörter. Anstatt starr zu bleiben, hören Sie genau hin, notieren sich die besten Beispiele in einem kleinen Heftchen (Priority Queue), passen Ihre Grammatik leicht an (Adaptive Update) und nutzen Ihre Logik, um die neuen Wörter zu verstehen, bevor Sie sie überhaupt gelernt haben (Warm Start).

Das Endergebnis: WARM-CAT ist wie ein lernfähiger, flexibler Mensch, der sich an neue Situationen anpasst, ohne das alte Wissen zu vergessen. In Tests hat es gezeigt, dass es deutlich besser ist als alle bisherigen Methoden, besonders wenn es darum geht, Dinge zu erkennen, die es vorher noch nie gesehen hat, aber aus bekannten Teilen zusammengesetzt sind.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Compositional Zero-Shot Learning (CZSL) zielt darauf ab, neue Attribute-Objekt-Kombinationen (z. B. „verwelkte Sonnenblume") zu erkennen, indem Wissen aus gesehenen Kombinationen (z. B. „roter Apfel") übertragen wird. Ein zentrales Problem bestehender Methoden ist die Verteilungsverschiebung des Labelraums (Label Space Shift) zum Testzeitpunkt.

Herausforderung: Modelle werden während des Trainings auf einer festen Menge von Kombinationen trainiert. Im Testmodus treten jedoch neue, ungesehene Kombinationen auf, die zu einer Diskrepanz zwischen der gelernten und der tatsächlichen Testverteilung führen.
Limitierung bestehender Ansätze: Herkömmliche Methoden frieren die Modellparameter und Klassenprototypen nach dem Training ein. Sie können die ungelabelten Testdaten nicht nutzen, um sich an die neue Verteilung anzupassen, was zu einer Leistungsverschlechterung und verzerrten Vorhersagen führt.
Ziel: Entwicklung eines Systems, das während des Testens kontinuierlich Wissen aus ungelabelten Daten akkumuliert, um diese Verteilungsverschiebung zu überbrücken, ohne dabei das Wissen über die gesehenen Kombinationen zu vergessen (Catastrophic Forgetting).

2. Methodik: WARM-CAT

Das vorgeschlagene Framework WARM-CAT (Warm-Started Test-Time Comprehensive Knowledge Accumulation) nutzt ungelabelte Testdaten, um multimodale Prototypen (visuell und textuell) dynamisch zu aktualisieren.

A. Trainingsphase

Es wird ein Basis-Modell auf CLIP (Vision-Language Model) aufgebaut.
Text-Encoder: Wird durch „Prompt Tuning" (lernbare Soft-Tokens) angepasst, um Attribute und Objekte besser zu repräsentieren.
Visueller Encoder: Wird durch „Adapter Tuning" (leichte trainierbare Module in den Transformer-Schichten) feinabgestimmt, während die Hauptparameter eingefroren bleiben.
Ziel ist ein einfaches, aber effektives Basis-Modell für den Testzeitpunkt.

B. Testphase (Test-Time Adaptation)

Der Kern von WARM-CAT liegt in der Anpassung während des Inferenzvorgangs:

Multimodale Prototypen:
- Textuelle Prototypen: Werden aus den Embeddings der Label generiert.
- Visuelle Prototypen: Werden nicht statisch gespeichert, sondern dynamisch aus einer dynamischen Prioritätswarteschlange (Priority Queue) abgeleitet, die hochkonfidente historische Testbilder speichert.
Warm-Start der Warteschlange (Kerninnovation):
- Um zu verhindern, dass das Modell zu Beginn des Tests nur auf bereits gespeicherte (gesehene) Kombinationen biasiert ist, wird die Warteschlange initialisiert:
  - Für gesehene Kombinationen: Mit den visuellen Features der Trainingsbilder.
  - Für ungesehene Kombinationen: Es wird eine Mapping-Funktion $M$ zwischen den textuellen Prototypen von gesehenen und ungesehenen Klassen gelernt. Diese Mapping-Matrix wird auf die visuellen Prototypen der gesehenen Klassen angewendet, um virtuelle visuelle Prototypen für die ungesehenen Klassen zu generieren. Dies stellt einen fairen Startpunkt sicher.
Wissensakkumulations-Modul (KAM) & Adaptive Gewichtung:
- Statt die Basis-Parameter zu ändern, werden lernbare KAMs eingeführt, die die Prototypen aktualisieren.
- Eine adaptive Update-Gewichtung (AUW) steuert, wie stark ein Prototyp basierend auf der Ähnlichkeit zwischen dem aktuellen Testbild und dem Original-Prototyp aktualisiert wird.
  - Hohe Ähnlichkeit (bekannte Klasse) $\rightarrow$ Geringe Anpassung (Schutz vor Vergessen).
  - Geringe Ähnlichkeit (neue Klasse) $\rightarrow$ Starke Anpassung (Anpassung an neue Verteilung).
Optimierungsziele:
- Entropie-Minimierung: Fördert selbstbewusste Vorhersagen auf den Testdaten.
- Multimodale kollaborative Darstellungslernung: Ein kontrastiver Verlust sorgt dafür, dass die visuellen und textuellen Prototypen für dieselbe Kombination näher zusammenrücken, während sie für andere getrennt werden. Dies stellt semantische Konsistenz sicher.

3. Wichtige Beiträge

Neues Framework (WARM-CAT): Der erste Ansatz, der ungelabelte Testdaten nutzt, um multimodale Prototypen in CZSL dynamisch zu aktualisieren und so die Label-Space-Shift-Problematik zu lösen.
Warm-Start-Strategie: Eine innovative Initialisierung der visuellen Prototypen für ungesehene Klassen durch Mapping von textuellen Beziehungen, was die Verzerrung zugunsten historischer Bilder verhindert.
Neue Benchmarks:
- C-Fashion: Ein neuer Datensatz für compositional reasoning im Modebereich (basierend auf FashionIQ), der bisher fehlte.
- MIT-States:* Eine bereinigte und bereinigte Version des stark verrauschten MIT-States-Datensatzes (ca. 70% der Original-Labels waren fehlerhaft).
Neue Evaluierungsmetriken: Einführung von Metriken für Long-Tailed-Verteilungen, um die Leistung auf seltenen (Tail-)Klassen zu bewerten.
State-of-the-Art Ergebnisse: Überlegene Leistung auf vier Datensätzen (UT-Zappos, C-Fashion, C-GQA, MIT-States*) in Closed-World- und Open-World-Szenarien.

4. Ergebnisse

Closed-World & Open-World: WARM-CAT erreicht auf allen vier Datensätzen die besten Ergebnisse (State-of-the-Art) in Bezug auf AUC (Area Under Curve) und HM (Harmonic Mean).
- Beispiel UT-Zappos: Steigerung von 48,3% (TOMCAT) auf 52,9% (WARM-CAT) AUC.
- Beispiel C-Fashion: Deutliche Verbesserungen gegenüber dem vorherigen SOTA.
Long-Tailed Performance: Im Vergleich zu bestehenden Methoden zeigt WARM-CAT eine deutlich ausgewogenere Leistung über Head-, Body- und Tail-Klassen hinweg. Es reduziert die Standardabweichung der Genauigkeit signifikant, was auf eine robustere Erkennung seltener Kombinationen hindeutet.
Ablationsstudien:
- Die Kombination aus textuellen und visuellen KAMs ist essenziell.
- Die Warm-Start-Strategie für ungesehene Klassen ist kritisch für die Vermeidung von Bias.
- Die adaptive Gewichtung (AUW) verhindert eine zu aggressive Anpassung bei bekannten Klassen.
- Das Fine-Tuning des Basis-Modells während des Trainings ist notwendig; reines CLIP ohne Anpassung funktioniert nicht gut.

5. Bedeutung und Fazit

WARM-CAT adressiert eine fundamentale Lücke in der CZSL-Forschung: Die Unfähigkeit bestehender Modelle, sich an neue Verteilungen im Testzeitpunkt anzupassen, ohne dabei das gelernte Wissen zu verlieren. Durch die Einführung eines Warm-Start-Mechanismus für visuelle Prototypen und die Nutzung ungelabelter Testdaten für eine kontinuierliche Wissensakkumulation überwindet das Modell die Limitierungen statischer Modelle.

Die Arbeit hebt nicht nur die Leistungsgrenzen in der Zero-Shot-Erkennung, sondern verbessert auch die Evaluierungspraxis durch neue, sauberere Datensätze (C-Fashion, MIT-States*) und Metriken für Long-Tailed-Szenarien. Dies ist besonders relevant für reale Anwendungen wie Empfehlungssysteme im E-Commerce, wo sich Produktattribute und -kombinationen ständig ändern und neue Trends entstehen.