WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

Each language version is independently generated for its own context, not a direct translation.

🐱 Le Problème : Le Chat qui a oublié son chemin

Imaginez que vous apprenez à un robot à reconnaître des chats.

Vous lui montrez des photos de chats roux et de chats noirs.
Il apprend très bien à les identifier.

Mais soudain, vous lui montrez un chat blanc (qu'il n'a jamais vu). Le robot panique ! Pourquoi ? Parce qu'il a été entraîné uniquement sur des chats roux et noirs. Il pense que "chat blanc" n'existe pas, ou il le confond avec un chat noir.

C'est le problème de l'Apprentissage Zéro-Shot Compositionnel (CZSL). Les humains sont excellents pour combiner des idées connues (rouge + pomme = pomme rouge) pour comprendre de nouvelles choses. Les robots, eux, sont souvent bloqués quand ils rencontrent une combinaison qu'ils n'ont jamais vue, surtout si les conditions changent (comme un changement de style de photo ou de lumière).

🚀 La Solution : WARM-CAT (Le Chat qui se Réchauffe)

Les chercheurs ont créé une méthode appelée WARM-CAT. Voici comment cela fonctionne, avec des analogies du quotidien :

1. La Bibliothèque Vivante (L'Accumulation de Connaissances)

Habituellement, un robot est comme un livre fermé : une fois l'école finie (l'entraînement), il ne peut plus apprendre. Si on lui donne un nouveau livre, il ne sait pas le lire.

WARM-CAT, lui, est comme un étudiant très curieux qui a une bibliothèque vivante.

Pendant qu'il travaille (pendant le "test"), il regarde les nouvelles images qui arrivent.
Au lieu de les ignorer, il les note dans son carnet pour améliorer sa compréhension en temps réel.
Il ne réécrit pas tout son manuel scolaire (ce qui effacerait ce qu'il sait déjà), mais il ajoute des post-it intelligents sur les pages concernées.

2. La File d'Attente Prioritaire (La "Priority Queue")

Pour ne pas se perdre dans la masse d'informations, WARM-CAT utilise une file d'attente spéciale.

Imaginez un trieur de photos. Il ne garde que les 3 meilleures photos de chaque type d'objet qu'il voit (par exemple, les 3 plus belles photos de "chats blancs" qu'il a vues).
Il efface les photos floues ou douteuses pour ne garder que les exemples les plus clairs.
Cela lui permet de construire une image mentale très nette de ce qu'est un "chat blanc", même s'il n'en a jamais vu un seul au début.

3. Le Réchauffement (Le "Warm-Start")

C'est ici que l'idée devient brillante.

Le problème : Si la file d'attente est vide au début, le robot va essayer de remplir les cases "chats blancs" avec des photos de "chats roux" qu'il connaît déjà, car il n'a rien d'autre. Il se trompe donc dès le début.
La solution WARM-CAT : Avant même de commencer le test, on remplit la file d'attente avec des photos de ce qu'il connaît déjà (les chats roux). Ensuite, on utilise un magicien mathématique (une carte de correspondance) pour deviner à quoi pourrait ressembler un "chat blanc" en se basant sur la logique des "chats roux".
C'est comme si vous prépariez votre table de travail avec des outils avant d'arriver sur le chantier, au lieu d'attendre d'avoir fini le premier mur pour chercher un marteau.

4. L'Adaptation Douce (Les Poids Adaptatifs)

Parfois, le robot voit une image qui ressemble beaucoup à ce qu'il connaît déjà (un chat roux). Il ne doit pas changer ses règles !
Parfois, il voit quelque chose de très différent (un chat blanc). Là, il doit ajuster ses règles.
WARM-CAT utilise un thermostat intelligent :

Si l'image est familière ➔ Il tourne le bouton à "peu de changement".
Si l'image est nouvelle ➔ Il tourne le bouton à "beaucoup de changement".
Cela évite que le robot oublie ce qu'il savait déjà (un phénomène appelé "oubli catastrophique").

📸 Pourquoi c'est important pour le futur ?

Les chercheurs ont aussi créé de nouveaux jeux de données (comme C-Fashion) pour tester cette méthode sur des vêtements, un domaine où les combinaisons sont infinies (robe rouge, robe bleue, robe à rayures, etc.).

Le résultat ?
WARM-CAT est comme un détective qui s'améliore à chaque nouvelle enquête. Là où les autres robots s'arrêtent et se trompent face à l'inconnu, WARM-CAT utilise les indices qu'il trouve sur le terrain pour se corriger lui-même, devenant plus précis et plus fiable au fil du temps.

En résumé

WARM-CAT est un système qui apprend en continu. Il ne se contente pas de regarder des photos ; il les analyse, garde les meilleures, utilise la logique pour deviner les nouvelles, et ajuste sa vision du monde sans oublier ses bases. C'est un pas de géant vers des intelligences artificielles aussi flexibles et adaptatives que les humains.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le Zero-Shot Learning Compositionnel (CZSL) vise à reconnaître de nouvelles compositions d'attributs et d'objets (ex: "chat vieux") à partir de connaissances acquises sur des compositions vues lors de l'entraînement (ex: "chat jeune", "chien vieux").

Cependant, les méthodes existantes souffrent d'une dégradation des performances lors de l'inférence (test) en raison d'un décalage de la distribution de l'espace des étiquettes (label space shift).

Cause : Les modèles sont entraînés sur un ensemble d'étiquettes connu ( $C_s$ ), mais doivent prédire sur un espace incluant des compositions inédites ( $C_u$ ).
Limitation actuelle : Une fois entraînés, les paramètres du modèle et les prototypes de classes sont figés. Ils ne peuvent pas s'adapter aux données non étiquetées disponibles lors de la phase de test, ce qui empêche le modèle de corriger le biais induit par l'apparition de nouvelles combinaisons.

L'objectif est de concevoir un système capable d'accumuler des connaissances de manière continue et non supervisée durant le test pour s'adapter à ce décalage, tout en évitant l'oubli catastrophique des connaissances apprises.

2. Méthodologie : WARM-CAT

Les auteurs proposent WARM-CAT (Warm-Started Test-Time Comprehensive Knowledge Accumulation), un cadre novateur qui accumule des connaissances multimodales (texte et image) à partir de données non étiquetées en temps réel pour mettre à jour les prototypes.

A. Architecture de Base

Le modèle de base est un CLIP (Vision-Language Model) finement ajusté (fine-tuned) via :

Prompt Tuning sur l'encodeur de texte (remplacement des prompts fixes par des tokens apprenables).
Adapter Tuning sur l'encodeur visuel (ajout de modules légers dans les couches du réseau).

B. Composants Clés de WARM-CAT

Construction et Mise à Jour des Prototypes Multimodaux :
- Prototypes Textuels : Représentations encodées des étiquettes de composition (vus et non vus).
- Prototypes Visuels : Construits dynamiquement à partir d'une File de Priorité Dynamique (Dynamic Priority Queue) qui stocke les images de test ayant la plus haute confiance (entropie de prédiction faible).
- Mise à jour : Les prototypes sont ajustés par des Modules d'Accumulation de Connaissances (KAM) apprenables, contrôlés par des poids de mise à jour adaptatifs (AUW). Ces poids dépendent de la similarité entre l'image de test et le prototype original : plus l'image est différente (potentiellement une composition non vue), plus la mise à jour est forte.
Stratégie de "Warm-Start" (Démarrage à Chaud) de la File de Priorité :
- Problème initial : Si la file de priorité est vide au début du test, le modèle a tendance à prédire uniquement les compositions déjà stockées, créant un biais.
- Solution pour les compositions vues : Initialisation de la file avec les images d'entraînement des compositions vues.
- Solution pour les compositions non vues : Génération de prototypes visuels virtuels. Les auteurs apprennent une matrice de mappage entre les prototypes textuels vus et non vus, puis appliquent ce mappage aux prototypes visuels vus pour générer des prototypes visuels pour les compositions non vues. Cela permet au modèle de démarrer avec une représentation visuelle équilibrée pour toutes les classes.
Apprentissage Collaboratif Multimodal :
- Pour assurer la cohérence sémantique, un objectif de Contrastive Learning aligne les prototypes textuels et visuels correspondants, renforçant l'interdépendance entre les modalités.
Objectif d'Optimisation :
- Le modèle minimise l'entropie de prédiction (pour des prédictions plus confiantes) et la perte de représentation collaborative multimodale sur les données de test non étiquetées, sans rétropropagation sur les paramètres de base (seuls les KAM et les prototypes sont mis à jour).

3. Contributions Principales

Cadre WARM-CAT : Première approche à utiliser des données non étiquetées en temps de test pour améliorer les performances du CZSL en comblant le décalage de distribution des étiquettes.
Gestion Dynamique des Prototypes : Introduction d'une file de priorité pour stocker les exemples visuels fiables et d'un mécanisme de mise à jour adaptative pour contrôler l'ampleur des ajustements.
Stratégie de Démarrage à Chaud Innovante : Utilisation de relations sémantiques apprises pour générer des prototypes visuels pour les classes non vues, évitant ainsi le biais vers les classes historiquement observées.
Nouveaux Benchmarks :
- C-Fashion : Un nouveau jeu de données dédié au raisonnement compositionnel dans le domaine de la mode (basé sur FashionIQ), comblant un vide dans les benchmarks existants.
- MIT-States :* Une version nettoyée et raffinée du jeu de données MIT-States, éliminant environ 70% du bruit d'étiquetage présent dans l'original.
Évaluation Robuste : Introduction de métriques adaptées aux distributions à longue traîne (long-tailed) et validation sur quatre jeux de données (UT-Zappos, C-Fashion, C-GQA, MIT-States*).

4. Résultats Expérimentaux

Les expériences ont été menées sur quatre jeux de données dans des settings monde fermé (seules les classes définies sont possibles) et monde ouvert (toutes les combinaisons possibles).

Performance Globale : WARM-CAT bat l'état de l'art (SOTA) sur tous les jeux de données, surpassant des méthodes récentes comme TOMCAT, ClusPro, et Troika.
- Exemple (UT-Zappos, Monde Fermé) : Gain de +4.6% sur l'AUC et +4.1% sur la Moyenne Harmonique (HM) par rapport à la version précédente (TOMCAT).
Robustesse aux Distributions à Longue Traîne : Sur C-Fashion et MIT-States*, WARM-CAT démontre une capacité supérieure à reconnaître les classes "Queue" (rares) tout en maintenant de bonnes performances sur les classes "Tête" (fréquentes), réduisant significativement l'écart de performance (écart-type) entre les groupes.
Analyse Ablative :
- La stratégie de Warm-Start est cruciale : sans elle, le modèle favorise excessivement les compositions déjà vues.
- L'alignement multimodal (texte + image) est essentiel ; l'utilisation d'une seule modalité dégrade fortement les performances.
- L'initialisation des KAM à zéro est supérieure aux initialisations aléatoires, évitant le bruit initial.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine du CZSL en passant d'une approche statique (modèle figé après l'entraînement) à une approche d'adaptation dynamique en temps réel.

Réelle applicabilité : La méthode simule un système intelligent capable d'apprendre continuellement lors de son déploiement, en utilisant les interactions utilisateurs (données non étiquetées) pour s'adapter aux nouveaux contextes sans réentraînement complet.
Qualité des Données : La création de C-Fashion et le nettoyage de MIT-States* offrent des bases d'évaluation plus fiables et pertinentes pour la recherche future, en particulier pour les applications e-commerce et de recommandation.
Efficacité : L'approche est conçue pour être efficace en latence, ne modifiant que des modules légers (KAM) et non le modèle de fondation entier, ce qui la rend viable pour des déploiements pratiques.

En résumé, WARM-CAT résout le problème fondamental du décalage de distribution en test grâce à une accumulation intelligente et équilibrée de connaissances multimodales, établissant un nouveau standard de performance pour le Zero-Shot Learning Compositionnel.