Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Cet article propose la méthode SPA (Structure-aware Prompt Adaptation), qui améliore l'apprentissage zéro-shot compositionnel à vocabulaire ouvert en exploitant la cohérence des structures locales sémantiques pour adapter les modèles des concepts vus aux concepts non vus.

Yihang Duan, Jiong Wang, Pengpeng Zeng, Ji Zhang, Lei Zhao, Chong Wang, Jingkuan Song, Lianli Gao

Publié 2026-03-05
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous apprenez à reconnaître des objets et leurs états, comme un « pomme mûre » ou un « livre ouvert ».

Jusqu'à présent, les ordinateurs étaient comme des élèves très studieux mais un peu rigides : ils apprenaient par cœur une liste précise de combinaisons (pomme + mûre, livre + ouvert). Si vous leur montriez quelque chose de nouveau, comme une « pomme pourrie » (où « pourrie » n'était jamais vu) ou un « livre brûlé », ils étaient perdus. Ils ne savaient pas que « pourrie » est un peu comme « mûre » (un état avancé), ou que « brûlé » est une forme de destruction.

C'est là que cette recherche intervient. Elle propose une méthode intelligente appelée SPA (Adaptation de Prompt Sensible à la Structure). Voici comment cela fonctionne, expliqué simplement :

1. Le Problème : L'élève qui ne fait que mémoriser

Les anciennes méthodes d'intelligence artificielle (IA) fonctionnaient comme un dictionnaire fermé. Si le mot « pourrie » n'était pas dans le dictionnaire, l'IA ne pouvait pas deviner ce que c'était, même si elle connaissait « mûre ». Elle manquait de bon sens.

2. L'Inspiration : Comment les humains raisonnent

Les humains, eux, utilisent l'analogie.

  • Si je vous dis « damp » (humide), vous pensez immédiatement à « wet » (mouillé).
  • Si je vous parle d'une « veste », vous pensez à un « t-shirt ».
    Nous créons des groupes ou des familles d'idées qui se ressemblent. Même si nous n'avons jamais vu un objet spécifique, nous pouvons deviner sa nature en le comparant à ce que nous connaissons déjà.

3. La Solution : SPA, le « Traducteur de Famille »

Les chercheurs ont découvert que dans l'esprit de l'IA (dans son « espace d'embedding »), les mots qui se ressemblent (comme « veste » et « t-shirt ») forment naturellement des petits groupes ou des structures locales, un peu comme des îles dans un océan.

Leur méthode, SPA, fait deux choses magiques :

A. Pendant l'entraînement : Garder la carte au propre (SCL)

Imaginez que vous dessinez une carte de votre quartier. Vous voulez que les maisons qui se ressemblent restent proches les unes des autres.

  • L'ancien problème : Quand l'IA apprendait de nouvelles tâches, elle avait tendance à bousculer cette carte, séparant des voisins qui devraient être proches.
  • La solution SPA : Elle ajoute une règle stricte (une « perte de cohérence ») qui dit : « Hé, ne déplace pas trop les voisins ! Garde la structure de ton quartier intacte. » Cela assure que l'IA conserve son bon sens de base même en apprenant de nouvelles choses.

B. Pendant le test : Utiliser les voisins pour deviner (SAS)

Maintenant, imaginez que l'IA doit reconnaître un objet qu'elle n'a jamais vu, disons une « chaise cassée » (alors qu'elle ne connaît que la « chaise » et la « table cassée »).

  • L'ancien problème : L'IA panique car « chaise cassée » n'est pas dans sa liste.
  • La solution SPA : Elle regarde autour d'elle. Elle se dit : « Je ne connais pas "chaise cassée", mais je connais "table cassée". Et je sais que "chaise" et "table" sont des cousins proches dans ma carte. Donc, je vais appliquer la logique de "table cassée" à "chaise" pour deviner la réponse. »
    C'est comme si l'IA utilisait ses amis proches pour deviner qui est l'inconnu. Elle ajuste sa réponse en se basant sur la structure de ce qu'elle connaît déjà.

4. Le Résultat : Un élève polyvalent

Grâce à cette méthode, l'IA devient beaucoup plus flexible :

  • Elle reste excellente sur ce qu'elle a appris (les pommes mûres, les livres ouverts).
  • Mais elle devient incroyablement bonne pour deviner ce qu'elle n'a jamais vu (les pommes pourries, les livres brûlés), simplement en utilisant la logique de ses voisins.

En résumé

Cette recherche est comme donner à un robot un sens de l'orientation et un réseau social. Au lieu de mémoriser chaque combinaison possible, le robot apprend à naviguer dans un monde d'idées où les concepts sont reliés entre eux. Si un concept est nouveau, il regarde simplement qui sont ses voisins les plus proches pour comprendre de quoi il s'agit.

C'est une avancée majeure pour rendre l'intelligence artificielle plus proche de la façon dont nous, humains, comprenons le monde : par association et par analogie, et non par simple mémorisation.