CLIP-driven Zero-shot Learning with Ambiguous Labels

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een jonge detective bent die moet leren dieren te herkennen. Normaal gesproken krijg je een foto van een hond en de tekst "dit is een hond". Maar in de echte wereld is het vaak rommeliger. Soms krijg je een foto van een hond, maar staat er op het briefje: "Dit is een hond, een wolf, of misschien een vos." Je weet niet zeker welke het is. Dit noemen we onduidelijke labels.

De meeste computerprogramma's voor beeldherkenning raken hierdoor in de war. Ze denken dat alles een hond is, of ze raken gefrustreerd en leren niets.

De auteurs van dit paper hebben een slimme nieuwe methode bedacht, genaamd CLIP-PZSL, om dit probleem op te lossen. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Super-Detective (CLIP)

Eerst gebruiken ze een bestaande, zeer slimme AI genaamd CLIP. Denk aan CLIP als een detective die al miljoenen foto's en teksten heeft gezien. Hij weet al precies hoe een "wolf" eruitziet en hoe het woord "wolf" klinkt. Hij kan een foto van een dier vergelijken met een tekst en zeggen: "Deze foto lijkt het meest op een wolf."

2. De "Zoektocht naar de Waarheid" (Semantische Mijning)

Het probleem is dat onze detective soms een lijstje krijgt met drie mogelijke namen (bijv. hond, wolf, vos), terwijl het dier op de foto eigenlijk een hond is. Hoe weet hij welke naam echt klopt?

De auteurs hebben een nieuw hulpmiddel toegevoegd: de Semantische Mijning-blok.

De Analogie: Stel je voor dat je een groep mensen hebt die allemaal een beetje anders over een dier praten. De detective (CLIP) luistert naar al deze stemmen. De "mijning-blok" is als een slimme moderator die zegt: "Hé, de stemmen die lijken op 'wolf' en 'hond' klinken heel anders. Laten we de stemmen die het meest op de foto lijken, versterken en de andere negeren."
Het systeem zoekt dus actief naar de beste beschrijving voor de foto, zelfs als het oorspronkelijke lijstje rommelig was.

3. Het "Spiegelbeeld" (Instance-Label Uitlijning)

Vervolgens moet de computer de foto en de tekst perfect op elkaar laten lijken, alsof ze in dezelfde taal spreken.

De Analogie: Stel je voor dat je een foto van een hond in de ene hand houdt en een kaartje met het woord "hond" in de andere. Soms zijn ze niet goed op elkaar afgestemd (alsof je een kaartje van een kat bij de foto van een hond houdt).
De methode gebruikt een nieuwe verliesfunctie (een soort scorebord). Dit scorebord zegt: "Als de foto en het woord niet goed matchen, krijg je strafpunten." Naarmate de computer meer oefent, begint hij zelf te begrijpen welk woord het juiste is. Hij corrigeert zijn eigen lijstje.
Eerst denkt hij misschien: "Het is een hond of een wolf." Na een paar rondes zegt hij: "Nee, wacht, kijk naar de staart en de oren... het is echt een hond!" En dan past hij zijn kennis aan.

4. De Grote Test: Onbekende Dieren

Het echte wonder van deze methode is dat de detective niet alleen leert over de dieren die hij al kent (de "gezichten"), maar ook over dieren die hij nooit heeft gezien.

Omdat hij zo goed heeft geleerd om de juiste woorden te koppelen aan de juiste beelden (zelfs als de instructies rommelig waren), kan hij nu een foto van een giraf (een dier dat hij nooit heeft gezien) bekijken.
Hij denkt: "Ik heb nooit een giraf gezien, maar ik weet dat 'hals' en 'vlekken' bij 'giraf' horen." Omdat hij zo goed is in het koppelen van woorden aan beelden, herkent hij de giraf direct, zonder dat hij ooit een foto van een giraf heeft getraind.

Waarom is dit belangrijk?

Vroeger moesten we elke foto perfect labelen (duur en lastig). Nu kunnen we werken met "ruwe" data waar mensen soms twijfelen of fouten maken.

Vroeger: Als je een foutje maakte in de instructies, leerde de computer het verkeerde.
Nu (met CLIP-PZSL): De computer is slim genoeg om te zeggen: "Ah, dit label klopt niet helemaal, ik ga zelf de juiste naam zoeken."

Kort samengevat:
Deze paper introduceert een slimme manier om computers te leren dieren (en andere dingen) te herkennen, zelfs als de instructies onduidelijk zijn. Het gebruikt een slimme "detective" (CLIP) die zelf leert welke beschrijvingen kloppen en welke niet, zodat hij uiteindelijk zelfs dingen kan herkennen die hij nog nooit heeft gezien. Het is alsof je een kind leert lezen met een boek dat vol spelfouten zit, maar het kind is zo slim dat het de fouten zelf corrigeert en uiteindelijk boeken leest die het nog nooit heeft gezien.

Each language version is independently generated for its own context, not a direct translation.

Titel: CLIP-gedreven Zero-Shot Learning met Ambiguë Labels

Auteurs: Jinfu Fan, Jiangnan Li, et al. (Qingdao University, Shandong Computer Science Center, Shanghai JiaoTong University)

1. Het Probleem

Zero-Shot Learning (ZSL) heeft als doel om onzichtbare klassen te herkennen door kennis over te dragen van zichtbare klassen via gedeelde semantische informatie (zoals attributen of tekstuele beschrijvingen).

Huidige beperking: De meeste bestaande ZSL-methodes gaan uit van perfect gelabelde trainingsdata. In realistische scenario's (bijv. via crowdsourcing) zijn labels echter vaak ruisachtig of ambigu (een voorbeeld is gekoppeld aan meerdere kandidaat-labels, waarvan er slechts één correct is).
Gevolg: Bestaande methoden overfitten op deze onnauwkeurige labels, wat leidt tot een aanzienlijke prestatiedaling, vooral bij het generaliseren naar onzichtbare klassen.
De uitdaging: Hoe kan men semantische informatie uit zichtbare klassen leren onder invloed van ambiguïteit en deze effectief omzetten naar herkenning van onzichtbare klassen?

2. Methodologie: CLIP-PZSL

De auteurs stellen een nieuw kader voor: CLIP-driven Partial Label Zero-Shot Learning (CLIP-PZSL). Dit combineert de kracht van CLIP (Contrastive Language-Image Pre-training) met Partial Label Learning (PLL).

Het framework bestaat uit drie kerncomponenten:

A. Feature Extractie met CLIP

Het model gebruikt de CLIP-architectuur met een Image Encoder en een Text Encoder.
Beelden worden omgezet in visuele features ( $p_i$ ) en labels worden via prompt-engineering (bijv. "A photo of a {class}") omgezet in tekstuele features ( $c_j$ ).
Dit creëert een gezamenlijke semantische ruimte waarin beelden en teksten vergeleken kunnen worden.

B. Semantic Mining Block (Semantische Ontgining)

Dit blok is ontworpen om discriminatieve label-embeddings te extraheren en ruis te detecteren.

Architectuur: Het gebruikt een aangepaste Transformer-structuur bestaande uit:
1. Self-attention: Om relaties binnen de instance-embeddings te modelleren.
2. K-means Cross-Attention: Een nieuw blok dat label-embeddings gebruikt als query ( $Q$ ) en instance-features als key ( $K$ ) en value ( $V$ ). Dit "poolt" instance-informatie die relevant is voor specifieke labels.
3. Gumbel-Softmax: Om een zachte benadering van het argmax te mogelijk maken, waardoor de model kan leren welke kandidaat-labels het meest waarschijnlijk correct zijn.
Doel: Het blok past de label-embeddings adaptief aan op basis van de input-voorbeelden, waardoor het model beter kan onderscheiden tussen waarheid en ruis.

C. Instance-Label Alignment met Partial Zero-Shot Loss

Om de impact van ambiguïteit te verminderen, wordt een nieuwe verliesfunctie ontwikkeld die twee delen combineert:

Cross-Entropy Loss met Correctie-weights:
- De auteurs berekenen de cosine-similariteit tussen een instance en de tekst-embeddings van kandidaat-labels.
- Op basis hiervan wordt een correctiematrix ( $R$ ) gegenereerd die de waarschijnlijkheid aangeeft dat een kandidaat-label de grond-waarheid is.
- De verliesfunctie weegt de kandidaat-labels dynamisch: hoe relevanter een label voor het voorbeeld, hoe hoger het gewicht.
Mean Squared Error (MSE) Loss:
- Deze term zorgt voor de alignatie van de instance-embeddings en de aangepaste label-embeddings in dezelfde dimensie.
- Dit minimaliseert semantische mismatch en helpt bij het generaliseren naar onzichtbare klassen.

Iteratief Proces: Tijdens het trainen worden de grond-waarheid labels progressief geïdentificeerd. De verfijnde labels en embeddings worden vervolgens teruggekoppeld om de semantische uitlijning verder te verbeteren.

3. Belangrijkste Bijdragen

Eerste Werk: CLIP-PZSL is, naar kennis van de auteurs, het eerste werk dat ZSL effectief toepast in het kader van partiële labels (ambiguïteit) in zichtbare klassen.
Semantische Mining Block: Een nieuw blok vanuit een clustering-perspectief dat sleutelinformatie extrahert en uitlijnt met label-embeddings voor betere ruisdetectie.
Robuuste Loss Functie: Een nieuwe "partial zero-shot loss" die niet alleen de impact van ruis vermindert door gewichten toe te kennen, maar ook instance- en label-embeddings in dezelfde dimensie uitlijnt om semantische discrepanties te minimaliseren.

4. Resultaten

De methode is getest op zes publieke benchmarks: CIFAR-10, CIFAR-100, Food-101, CUB (Caltech-UCSD Birds), Flowers-102, en AWA2.

Experimentele Setup: De datasets zijn aangepast met synthetische ruis (kandidaat-labelsets) met verschillende niveaus van ruis ( $q = 0.1, 0.3, 0.5$ ).
Vergelijking: CLIP-PZSL presteert significant beter dan bestaande ZSL-methoden (zoals CLIP, CALIP, ABP, SDGZSL, Transzero, CoAR-ZSL).
- Op CIFAR-10 bereikte CLIP-PZSL een nauwkeurigheid van 92.15% (zichtbare klassen) en 95.45% (onzichtbare klassen) bij $q=0.1$ , wat een duidelijke verbetering is ten opzichte van de baselines.
- Op AWA2 en CUB (traditionele attribut-datasets) behaalde het model ook de hoogste scores, terwijl traditionele methoden sterk degradeerden door de ruis.
Ablatiestudie: Het verwijderen van de "semantic mining block" of de "partial zero-shot loss" leidde tot een merkbare daling in prestaties, wat aantoont dat beide componenten essentieel zijn voor succesvolle disambiguering en generalisatie.

5. Betekenis en Conclusie

Dit paper is significant omdat het een brug slaat tussen Zero-Shot Learning en Weakly Supervised Learning (Partial Label Learning).

Het lost een cruciaal praktisch probleem op: hoe leer je modellen met imperfecte data zonder de generalisatie naar nieuwe klassen te verliezen.
Door CLIP te combineren met een dynamisch uitlijnmechanisme, demonstreert de methode dat het mogelijk is om robuuste zero-shot classifiers te bouwen die niet afhankelijk zijn van perfect gelabelde datasets.
De resultaten suggereren dat CLIP-PZSL een nieuwe standaard kan worden voor ZSL-toepassingen in real-world scenario's waar data-kwaliteit vaak een issue is.