CLIP-driven Zero-shot Learning with Ambiguous Labels
Cet article propose CLIP-PZSL, un cadre d'apprentissage zéro-shot piloté par CLIP qui gère les étiquettes ambiguës en fusionnant les caractéristiques d'instances et de labels via un bloc d'extraction sémantique et une fonction de perte partielle pour identifier progressivement les vérités terrain et améliorer l'alignement sémantique.