Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous apprenez à reconnaître des objets et leurs états, comme un « pomme mûre » ou un « livre ouvert ».

Jusqu'à présent, les ordinateurs étaient comme des élèves très studieux mais un peu rigides : ils apprenaient par cœur une liste précise de combinaisons (pomme + mûre, livre + ouvert). Si vous leur montriez quelque chose de nouveau, comme une « pomme pourrie » (où « pourrie » n'était jamais vu) ou un « livre brûlé », ils étaient perdus. Ils ne savaient pas que « pourrie » est un peu comme « mûre » (un état avancé), ou que « brûlé » est une forme de destruction.

C'est là que cette recherche intervient. Elle propose une méthode intelligente appelée SPA (Adaptation de Prompt Sensible à la Structure). Voici comment cela fonctionne, expliqué simplement :

1. Le Problème : L'élève qui ne fait que mémoriser

Les anciennes méthodes d'intelligence artificielle (IA) fonctionnaient comme un dictionnaire fermé. Si le mot « pourrie » n'était pas dans le dictionnaire, l'IA ne pouvait pas deviner ce que c'était, même si elle connaissait « mûre ». Elle manquait de bon sens.

2. L'Inspiration : Comment les humains raisonnent

Les humains, eux, utilisent l'analogie.

Si je vous dis « damp » (humide), vous pensez immédiatement à « wet » (mouillé).
Si je vous parle d'une « veste », vous pensez à un « t-shirt ».
Nous créons des groupes ou des familles d'idées qui se ressemblent. Même si nous n'avons jamais vu un objet spécifique, nous pouvons deviner sa nature en le comparant à ce que nous connaissons déjà.

3. La Solution : SPA, le « Traducteur de Famille »

Les chercheurs ont découvert que dans l'esprit de l'IA (dans son « espace d'embedding »), les mots qui se ressemblent (comme « veste » et « t-shirt ») forment naturellement des petits groupes ou des structures locales, un peu comme des îles dans un océan.

Leur méthode, SPA, fait deux choses magiques :

A. Pendant l'entraînement : Garder la carte au propre (SCL)

Imaginez que vous dessinez une carte de votre quartier. Vous voulez que les maisons qui se ressemblent restent proches les unes des autres.

L'ancien problème : Quand l'IA apprendait de nouvelles tâches, elle avait tendance à bousculer cette carte, séparant des voisins qui devraient être proches.
La solution SPA : Elle ajoute une règle stricte (une « perte de cohérence ») qui dit : « Hé, ne déplace pas trop les voisins ! Garde la structure de ton quartier intacte. » Cela assure que l'IA conserve son bon sens de base même en apprenant de nouvelles choses.

B. Pendant le test : Utiliser les voisins pour deviner (SAS)

Maintenant, imaginez que l'IA doit reconnaître un objet qu'elle n'a jamais vu, disons une « chaise cassée » (alors qu'elle ne connaît que la « chaise » et la « table cassée »).

L'ancien problème : L'IA panique car « chaise cassée » n'est pas dans sa liste.
La solution SPA : Elle regarde autour d'elle. Elle se dit : « Je ne connais pas "chaise cassée", mais je connais "table cassée". Et je sais que "chaise" et "table" sont des cousins proches dans ma carte. Donc, je vais appliquer la logique de "table cassée" à "chaise" pour deviner la réponse. »
C'est comme si l'IA utilisait ses amis proches pour deviner qui est l'inconnu. Elle ajuste sa réponse en se basant sur la structure de ce qu'elle connaît déjà.

4. Le Résultat : Un élève polyvalent

Grâce à cette méthode, l'IA devient beaucoup plus flexible :

Elle reste excellente sur ce qu'elle a appris (les pommes mûres, les livres ouverts).
Mais elle devient incroyablement bonne pour deviner ce qu'elle n'a jamais vu (les pommes pourries, les livres brûlés), simplement en utilisant la logique de ses voisins.

En résumé

Cette recherche est comme donner à un robot un sens de l'orientation et un réseau social. Au lieu de mémoriser chaque combinaison possible, le robot apprend à naviguer dans un monde d'idées où les concepts sont reliés entre eux. Si un concept est nouveau, il regarde simplement qui sont ses voisins les plus proches pour comprendre de quoi il s'agit.

C'est une avancée majeure pour rendre l'intelligence artificielle plus proche de la façon dont nous, humains, comprenons le monde : par association et par analogie, et non par simple mémorisation.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Apprentissage Compositionnel Zero-Shot en Vocabulaire Ouvert (OV-CZSL)

L'objectif de l'Open-Vocabulary Compositional Zero-Shot Learning (OV-CZSL) est de reconnaître des compositions d'attributs et d'objets dans un cadre ouvert, où le modèle doit généraliser non seulement aux combinaisons vues pendant l'entraînement, mais aussi à des attributs, des objets, et leurs compositions inédits (unseen).

Limites des approches existantes : Les méthodes récentes basées sur le Prompt Tuning (comme CSP, DFSP, Troika) utilisant des modèles Vision-Language pré-entraînés (CLIP) excellent dans le cadre fermé (CZSL), où seuls les attributs et objets vus sont évalués. Cependant, leur application directe à l'OV-CZSL échoue souvent à généraliser aux concepts totalement nouveaux.
Hypothèse de départ : Les méthodes actuelles ne parviennent pas à exploiter efficacement les relations sémantiques entre concepts connus et inconnus. Les humains, face à un concept inconnu (ex: "humide"), utilisent des analogies avec des concepts connus sémantiquement proches (ex: "damp").
Observation clé : Les auteurs ont empiriquement démontré que les primitives sémantiquement liées (attributs ou objets) forment des structures locales cohérentes dans l'espace d'embedding de CLIP. Ces structures sont préservées avant et après l'entraînement, offrant une base solide pour la généralisation.

2. Méthodologie : Structure-aware Prompt Adaptation (SPA)

Les auteurs proposent SPA, une méthode "plug-and-play" conçue pour améliorer les méthodes de prompt tuning basées sur CLIP. SPA se compose de deux modules principaux agissant à des phases différentes :

A. Phase d'Entraînement : Structure-aware Consistency Loss (SCL)

L'objectif est de préserver la structure locale des concepts vus (seen) pendant l'ajustement des prompts, afin de ne pas déformer les relations sémantiques apprises par CLIP.

Mécanisme : Pour chaque attribut et objet vu, le modèle calcule la matrice de similarité cosinus entre les embeddings initiaux (CLIP pré-entraîné) et les embeddings mis à jour (après fine-tuning).
Contrainte : Le modèle identifie les $K$ voisins les plus proches (Top-K) dans l'espace initial. La perte SCL impose une cohérence entre la distribution de similarité de ces voisins avant et après l'entraînement, en utilisant la divergence de Kullback-Leibler (KL-divergence).
But : Empêcher le fine-tuning de briser la topologie sémantique locale, assurant que des concepts comme "chemise" et "veste" restent proches même après adaptation.

B. Phase d'Inférence : Structure-guided Adaptation Strategy (SAS)

L'objectif est d'adapter dynamiquement les représentations des concepts inédits (unseen) en s'appuyant sur la structure des concepts vus.

Mécanisme : Pour un concept inédit (ex: un objet jamais vu), le système identifie ses $K$ voisins les plus similaires parmi les concepts vus dans l'espace d'embedding initial.
Adaptation : Le modèle calcule le "décalage" (shift) appliqué aux concepts vus lors de l'entraînement ( $\Delta P = P_{fin} - P_{init}$ ). Ce décalage est ensuite transféré aux concepts inédits, pondéré par la similarité avec leurs voisins vus.
Formule : $P^{(+)}_{p^*} = P^{(0)}_{p^*} + \sum w_k \Delta P_{p_k}$ , où les poids $w_k$ sont dérivés des similarités.
Résultat : Les concepts inédits sont "tirés" vers la structure apprise par les concepts vus, améliorant leur reconnaissance sans nécessiter d'entraînement explicite sur ces nouveaux concepts.

3. Contributions Clés

Exploration pionnière : Première application systématique du prompt tuning basé sur CLIP au problème OV-CZSL, démontrant son potentiel supérieur par rapport aux méthodes non-VLM.
Cadre SPA : Proposition d'une méthode modulaire combinant :
- SCL pour maintenir la cohérence structurelle locale des concepts vus.
- SAS pour aligner les concepts inédits sur la structure apprise via des analogies sémantiques.
Efficacité et Flexibilité : SPA est un module "plug-and-play" qui s'intègre sans effort aux méthodes existantes (CSP, DFSP, Troika) avec un surcoût computationnel négligeable.

4. Résultats Expérimentaux

Les expériences ont été menées sur quatre benchmarks majeurs : MIT-States, C-GQA, VAW-CZSL et UT-Zappos.

Performance Globale : L'intégration de SPA améliore systématiquement les performances de toutes les méthodes de base (baselines).
- Sur MIT-States, l'HM (Harmonic Mean) global augmente de +2.6%.
- Sur C-GQA (plus difficile), l'HM global augmente de +6.3%, avec une amélioration spectaculaire de +55.1% sur la partition la plus difficile ( $A^*O^*$ , attributs et objets inédits).
- Sur VAW-CZSL, SPA établit un nouvel état de l'art (SOTA), augmentant l'HM moyen de 16.00 à 17.30.
Généralisation : Les gains sont particulièrement marqués sur les partitions "Open-Vocabulary" ( $A^*O$ , $AO^*$ , $A^*O^*$ ), prouvant la capacité du modèle à inférer des concepts nouveaux.
Analyse de Coût :
- Entraînement : Surcoût minime (~5% de temps, ~1.6% de mémoire).
- Inférence : Surcoût négligeable (~0.02 ms par image).
Comparaison : SPA surpasse les méthodes de full fine-tuning de CLIP (qui dégradent les performances et consomment beaucoup plus de mémoire) et les approches précédentes comme NEL (Neighborhood Expansion Loss).

5. Signification et Impact

Ce travail est significatif car il résout un goulot d'étranglement majeur en IA visuelle : la capacité à généraliser à des concepts totalement nouveaux dans des tâches compositionnelles complexes.

Changement de paradigme : Au lieu d'essayer d'apprendre chaque nouveau concept de zéro, SPA utilise la structure sémantique latente des modèles pré-entraînés (CLIP) comme un guide pour l'inférence.
Robustesse : La méthode démontre que les relations locales dans l'espace d'embedding sont une source fiable de connaissances pour le transfert de savoir, même en l'absence de données d'entraînement pour les concepts cibles.
Applicabilité : En tant que méthode légère et modulaire, SPA offre une solution pratique pour déployer des modèles de reconnaissance d'images dans des environnements réels où les attributs et objets évoluent constamment, sans nécessiter de réentraînement coûteux.

En résumé, SPA transforme la limitation des modèles actuels (l'incapacité à gérer l'inconnu) en une force en exploitant intelligemment la géométrie sémantique des concepts connus pour inférer la nature des concepts inconnus.