CLIP-driven Zero-shot Learning with Ambiguous Labels

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie versuchen, einem Freund beizubringen, verschiedene Tiere zu erkennen, aber Sie haben ein riesiges Problem: Die Bilder, die Sie ihm zeigen, sind mit falschen oder verwirrenden Schildern versehen.

Das ist das Kernproblem, das diese Forschungslösung angeht. Hier ist die Erklärung in einfachen Worten, mit ein paar kreativen Vergleichen:

1. Das Problem: Der verwirrte Lehrer

Normalerweise lernen Computer (Künstliche Intelligenz), Dinge zu erkennen, indem man ihnen viele Bilder mit perfekten Beschriftungen zeigt (z. B. ein Bild von einem Hund mit dem Schild „Hund").

Aber in der echten Welt ist das oft chaotisch.

Das Szenario: Jemand macht ein Foto von einem Wolf, aber das Schild sagt: „Wolf, Hund, Fuchs oder Bär".
Das Ziel: Der Computer soll nicht nur diese Tiere erkennen, sondern auch völlig neue Tiere lernen, die er noch nie gesehen hat (z. B. einen „Panda", der gar nicht in den Trainingsbildern war), indem er die Ähnlichkeiten zu den bekannten Tieren nutzt.
Das Hindernis: Wenn die Trainingsbilder mit diesen „verwirrenden Schildern" (mehrere Möglichkeiten, nur eine ist richtig) gefüttert werden, lernt der Computer nicht richtig. Er wird verwirrt und kann die neuen Tiere nicht erkennen.

2. Die Lösung: CLIP-PZSL – Der kluge Detektiv

Die Autoren haben eine neue Methode namens CLIP-PZSL entwickelt. Man kann sich das wie einen sehr klugen Detektiv vorstellen, der zwei Werkzeuge nutzt:

A. Der Übersetzer (CLIP)

Zuerst nutzen sie ein mächtiges KI-Modell namens CLIP. Stellen Sie sich CLIP wie einen genialen Übersetzer vor, der Bilder und Sprache perfekt versteht.

Er nimmt das Bild (z. B. den Wolf) und wandelt es in eine Art „Gedanken" um.
Er nimmt die Wörter auf den Schildern (Wolf, Hund, Fuchs) und wandelt sie auch in „Gedanken" um.
Normalerweise würde er jetzt versuchen, das Bild dem Wort „Wolf" zuzuordnen. Aber wenn das Schild „Wolf, Hund, Fuchs" lautet, weiß er nicht, welcher Teil der „Gedanke" des Bildes zu welchem Wort gehört.

B. Der Schatzsucher (Semantic Mining Block)

Hier kommt der erste Trick ins Spiel: Der Semantische Schatzsucher.
Stellen Sie sich vor, der Computer hat einen Haufen verworrener Hinweise. Der Schatzsucher schaut sich das Bild und alle möglichen Wörter an und sagt: „Hey, dieser Teil des Bildes passt wirklich gut zum Wort Wolf, aber dieser andere Teil passt eher zu Hund."
Er filtert die wichtigen Informationen heraus und erstellt eine saubere Liste der „wahren" Bedeutungen, auch wenn das ursprüngliche Schild unsauber war. Er lernt quasi, welche Wörter auf dem Schild wirklich relevant sind.

C. Der Justier-Mechanismus (Partial Zero-Shot Loss)

Das ist der zweite Trick: Der Justier-Mechanismus.
Stellen Sie sich vor, Sie versuchen, zwei Puzzleteile zusammenzufügen. Wenn sie nicht genau passen, schieben Sie sie ein bisschen hin und her, bis sie perfekt ineinander greifen.

Die Methode berechnet ständig, wie gut das Bild zu den verschiedenen Wörtern passt.
Wenn das Bild sehr gut zu „Wolf" passt, aber das Schild „Fuchs" sagt, korrigiert der Mechanismus das Gewicht. Er sagt: „Ignoriere das falsche 'Fuchs'-Schild, konzentriere dich auf 'Wolf'."
Mit jedem Trainingsschritt werden die „wahren" Schilder immer klarer, und der Computer wird besser darin, auch völlig neue Tiere (die „Unseen Classes") zu erkennen, weil er die echten Muster gelernt hat, nicht das Rauschen.

3. Warum ist das so toll? (Die Ergebnisse)

In ihren Tests haben sie gezeigt, dass diese Methode viel besser funktioniert als alles, was es vorher gab:

Bei sauberen Daten: Sie ist genauso gut wie die Besten.
Bei schmutzigen Daten (mit falschen Schildern): Während andere Methoden komplett durchdrehen und Fehler machen, bleibt diese Methode ruhig, filtert die Unwahrheiten heraus und lernt trotzdem richtig.

Zusammenfassung in einem Satz

Stellen Sie sich vor, Sie lernen eine neue Sprache, aber Ihr Lehrer gibt Ihnen Wörterbücher, in denen bei jedem Wort drei Übersetzungen stehen, von denen nur eine stimmt. CLIP-PZSL ist wie ein Schüler, der durch geschicktes Vergleichen und Ausprobieren herausfindet, welche Übersetzung die richtige ist, und dadurch die Sprache so gut lernt, dass er sogar Texte in einer Sprache lesen kann, die er noch nie gesehen hat.

Das ist der große Durchbruch: Lernen trotz Verwirrung.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Ziel des Zero-Shot Learning (ZSL) ist es, unbekannte Klassen (unseen classes) zu erkennen, indem Wissen aus bekannten Klassen (seen classes) über gemeinsame semantische Informationen (z. B. Attribute oder Textbeschreibungen) transferiert wird. Ein zentrales Problem bestehender Methoden ist jedoch die Annahme, dass die Trainingsdaten über exakte und saubere Labels verfügen.

In realen Szenarien (z. B. durch Crowdsourcing oder Online-Abfragen) sind Labels oft verrauscht oder mehrdeutig (ambiguous). Ein Instanz kann mit mehreren Kandidaten-Labels versehen sein, von denen nur eines korrekt ist. Herkömmliche ZSL-Methoden überanpassen sich (overfitting) an diese mehrdeutigen Labels, was zu einer signifikanten Verschlechterung der Generalisierungsfähigkeit auf unbekannte Klassen führt. Bisherige Ansätze wie Partial Label Learning (PLL) können zwar mit mehrdeutigen Labels umgehen, sind jedoch auf bekannte Klassen beschränkt und können keine Zero-Shot-Erkennung durchführen.

2. Methodik: CLIP-PZSL Framework

Die Autoren schlagen CLIP-PZSL (CLIP-driven Partial Label Zero-Shot Learning) vor, ein Framework, das die Stärken von ZSL und PLL kombiniert, um mit verrauschten Daten umzugehen und gleichzeitig unbekannte Klassen zu erkennen.

A. Feature-Extraktion mit CLIP

Das Framework nutzt den CLIP (Contrastive Language-Image Pre-training) Encoder:

Bild-Encoder: Extrahiert Instanz-Features ( $p_i$ ) aus den Eingabebildern.
Text-Encoder: Kodiert Klassen-Labels in Textform (via Prompt Engineering, z. B. „A photo of a {class}").
Dies erzeugt einen gemeinsamen semantischen Raum für Bilder und Texte.

B. Semantischer Mining-Block (Semantic Mining Block)

Dieser Block dient der Extraktion diskriminativer Features und der Entschärfung von Mehrdeutigkeiten:

Architektur: Es wird eine neue Transformer-Architektur verwendet, die aus Self-Attention, einem K-means Cross-Attention-Block und einem Multi-Layer Perceptron (MLP) besteht.
Funktionsweise: Der Block fusioniert Instanz-Features und Label-Embeddings. Durch den K-means Cross-Attention-Mechanismus werden Schlüsselinformationen aus den Instanzen extrahiert und mit den Label-Embeddings abgeglichen.
Ziel: Adaptive Extraktion von Features, die es ermöglichen, die Ähnlichkeit zwischen Instanz und Label zu messen und somit verrauschte (falsche) Kandidaten-Labels zu identifizieren.

C. Instance-Label Alignment & Partial Zero-Shot Loss

Um die Mehrdeutigkeit zu lösen, wird eine iterative Strategie angewendet:

Ähnlichkeitsberechnung: Die Kosinus-Ähnlichkeit zwischen Instanz- und Text-Embeddings wird genutzt, um eine Korrekturmatrix zu erstellen.
Partial Zero-Shot Loss ( $\mathcal{L}$ ): Die Verlustfunktion besteht aus zwei Teilen:
1. Cross-Entropy Loss ( $\mathcal{L}_{ce}$ ): Weist Kandidaten-Labels Gewichte basierend auf ihrer Relevanz für die Instanz zu. Dies hilft, das Ground-Truth-Label schrittweise zu identifizieren.
2. Mean Squared Error Loss ( $\mathcal{L}_{dist}$ ): Sorgt für die Ausrichtung (Alignment) von Instanz- und Label-Embeddings im selben Dimensionsraum, um semantische Diskrepanzen zu minimieren.
Iterativer Prozess: Während des Trainings werden die Ground-Truth-Labels schrittweise identifiziert. Die verfeinerten Labels und Embeddings verbessern wiederum die semantische Ausrichtung und die Klassifikationsleistung.

3. Hauptbeiträge

Pionierarbeit: CLIP-PZSL ist laut Autoren die erste Arbeit, die ZSL effektiv mit mehrdeutigen Labels in den Trainingsdaten (Seen Classes) kombiniert.
Neuer Semantic Mining Block: Ein aus Clustering-Perspektive entwickelter Block, der Schlüsselinformationen extrahiert und mit Label-Embeddings ausrichtet, um verrauschte Labels besser zu erkennen.
Robuste Partial Zero-Shot Loss: Eine neue Verlustfunktion, die nicht nur den Einfluss verrauschter Labels mildert, sondern auch die semantische Ausrichtung zwischen Instanz und Label erzwingt, um Diskrepanzen zu minimieren.

4. Experimentelle Ergebnisse

Die Methode wurde auf sechs öffentlichen ZSL-Datensätzen getestet (CIFAR-10, CIFAR-100, Food-101, CUB, Flowers-102, AWA2) unter verschiedenen Rauschleveln ( $q = 0.1, 0.3, 0.5$ ).

Vergleich mit State-of-the-Art: CLIP-PZSL übertrifft sowohl CLIP-basierte ZSL-Methoden (wie CALIP) als auch traditionelle ZSL-Methoden (wie ABP, SDGZSL, Transzero) signifikant.
- Auf CIFAR-10 erreicht CLIP-PZSL bei $q=0.1$ eine Genauigkeit von 92,15 % (Seen) und 95,45 % (Unseen), während CLIP nur 87,23 % / 89,90 % erreicht.
- Auf AWA2 und CUB zeigen traditionelle Methoden bei Vorhandensein von Rauschen einen drastischen Leistungsabfall, während CLIP-PZSL seine Überlegenheit behält.
Ablationsstudie: Die Entfernung des Semantic Mining Blocks oder der Verlustkomponenten führt zu messbaren Einbußen, was die Notwendigkeit beider Komponenten für die Entschärfung von Mehrdeutigkeiten und die semantische Ausrichtung bestätigt.

5. Bedeutung und Fazit

Die Arbeit adressiert eine kritische Lücke im maschinellen Lernen: Die Robustheit von Zero-Shot-Modellen gegenüber unvollständigen oder fehlerhaften Annotationen in der realen Welt.

Innovation: Die Kombination von CLIPs semantischem Verständnis mit einem Mechanismus zur schrittweisen Entschärfung von Mehrdeutigkeiten (PLL-Ansatz) ermöglicht es, Modelle zu trainieren, die nicht nur auf sauberen Daten funktionieren.
Effizienz: Das Framework verbessert die Generalisierungsfähigkeit auf unbekannte Klassen, indem es sicherstellt, dass das Modell die wahre semantische Struktur lernt und nicht durch Rausch-Labels in die Irre geführt wird.
Zukunft: Dies ebnet den Weg für skalierbare ZSL-Anwendungen in Umgebungen, in denen saubere manuelle Annotationen zu teuer oder unmöglich sind.