Active Prompt Learning with Vision-Language Model Priors

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée de ce papier de recherche, conçue pour être comprise par tout le monde, même sans être expert en intelligence artificielle.

Imaginez que vous avez un génie de la lampe (le modèle d'IA, ici appelé CLIP) qui connaît déjà tout le monde sur Terre. Il a vu des milliards de photos et de textes. Il est très intelligent, mais il a un petit défaut : il est un peu "paresseux" et a besoin d'un petit mot d'ordre (un prompt) pour bien travailler sur une tâche précise.

Le problème, c'est que pour lui apprendre à reconnaître, par exemple, des races de chiens spécifiques, il faut normalement lui montrer des milliers de photos étiquetées manuellement par des humains. C'est long, cher et épuisant.

Les chercheurs de ce papier (Hoyoung Kim et son équipe) ont trouvé une astuce géniale pour apprendre à ce génie avec beaucoup moins d'effort. Ils appellent cela l'"Apprentissage Actif par Prompts".

Voici comment leur méthode fonctionne, étape par étape, avec des analogies du quotidien :

1. Le Problème : Choisir les bons élèves

Imaginez que vous êtes un professeur et que vous avez une classe de 10 000 élèves (des images) qui ne savent pas encore bien se comporter. Vous avez un budget très limité : vous ne pouvez en corriger que 10 par jour.

L'ancienne méthode : Vous choisissez 10 élèves au hasard. C'est risqué ! Vous pourriez tomber sur 10 élèves qui savent déjà tout, ou sur 10 qui sont tous assis dans le même coin (tous des chats), en oubliant les chiens.
Le défi : Comment choisir les 10 élèves les plus importants pour apprendre à toute la classe le plus vite possible ?

2. La Solution : La "Carte au Trésor Guidée par le Texte"

L'équipe propose deux astuces principales pour choisir ces élèves intelligemment.

Astuce A : La Carte au Trésor (Le Regroupement Guidé)

Au lieu de regarder juste la photo (l'image), ils utilisent la "mémoire" du génie (l'IA pré-entraînée) pour créer une carte spéciale.

L'analogie : Imaginez que vous voulez ranger une bibliothèque. Au lieu de ranger les livres juste par couleur de couverture (ce qui est ce que font les méthodes classiques), vous demandez à un bibliothécaire expert de vous dire : "Ce livre parle de chats, celui-ci de voitures, celui-ci de plantes".
En pratique : Ils mélangent la photo avec une description textuelle de ce que l'IA pense voir. Cela crée une "carte de chaleur" qui montre exactement où se trouvent les chats, les voitures, etc., même si l'IA n'a pas encore été entraînée sur ces images précises.
Le résultat : Ils peuvent maintenant faire des groupes (des clusters) très équilibrés. Ils s'assurent de prendre un élève de chaque groupe (un chat, un chien, un oiseau) dès le premier jour. Pas de gaspillage !

Astuce B : Le Filtre "Je sais déjà !" (La Sélection Sélective)

C'est ici que l'économie de budget se fait vraiment.

L'analogie : Vous avez un élève qui lève la main et dit : "Monsieur, je connais déjà la réponse à cette question !". Au lieu de perdre du temps à lui faire faire un exercice, vous lui dites : "Super, note ta propre réponse et passe à la suivante".
En pratique : L'IA regarde les images qu'elle a déjà choisies. Si elle est très sûre d'elle (par exemple, elle est à 99% sûre que c'est un chien), elle ne demande pas à l'humain de l'étiqueter. Elle se donne une "étiquette automatique" (un pseudo-label).
Le résultat : L'humain ne paie que pour les images où l'IA est perdue ou incertaine. On économise ainsi beaucoup d'argent et de temps.

3. Le Résultat : Un Super-Héros économe

Grâce à cette méthode (appelée CB+SQ dans le papier), ils ont testé leur approche sur 7 jeux de données différents (des photos d'animaux, de voitures, de fleurs, etc.).

Comparaison : Les autres méthodes (comme choisir au hasard ou chercher uniquement l'incertitude) ont besoin de beaucoup plus d'images étiquetées par des humains pour atteindre le même niveau de performance.
Leur victoire : Avec leur méthode, ils atteignent une précision supérieure en utilisant moins d'images étiquetées. C'est comme apprendre à un enfant à lire en lui montrant moins de livres, mais en choisissant les plus importants et en lui faisant réviser ce qu'il a déjà compris.

En résumé

Ce papier nous dit : "Ne gaspillez pas votre argent à étiqueter des choses que l'IA sait déjà faire !"

En utilisant la connaissance préexistante de l'IA pour :

Bien répartir les choix (pour ne pas oublier de catégories).
Éviter de demander de l'aide pour les choses évidentes.

...on peut entraîner des modèles d'intelligence artificielle beaucoup plus vite, moins cher, et avec une meilleure qualité. C'est une victoire pour l'efficacité et l'écologie des données !

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "Active Prompt Learning with Vision-Language Model Priors", publié dans les Transactions on Machine Learning Research (octobre 2025).

1. Problématique

Les modèles vision-langage (VLM), tels que CLIP, démontrent des performances exceptionnelles en zéro-shot sur diverses tâches de classification. Cependant, leur adaptation à de nouvelles tâches spécifiques repose souvent sur des prompts textuels manuellement conçus, ce qui est chronophage et laborieux.

Bien que l'apprentissage par prompt (prompt learning) offre une solution efficace en apprenant des vecteurs de prompts sans réentraîner les encodeurs complets, la plupart des travaux existants se concentrent sur l'optimisation des architectures de prompts à partir de jeux de données few-shot (quelques exemples) déjà fournis. Ils négligent souvent l'importance cruciale de la sélection de données. Dans un scénario d'apprentissage actif (Active Learning - AL), où l'objectif est d'obtenir la meilleure performance avec un budget d'annotation limité, les stratégies de sélection traditionnelles (basées sur l'incertitude ou la diversité) peinent à tirer pleinement parti des connaissances pré-entraînées des VLM, en particulier lors de la première ronde (problème du "cold-start").

2. Méthodologie Proposée

Les auteurs proposent un cadre d'Apprentissage Actif de Prompts (Active Prompt Learning) axé sur les données, nommé CB+SQ (Cluster-Balanced + Selective Querying). Ce cadre exploite pleinement les priors (connaissances pré-entraînées) des VLM pour sélectionner les données les plus informatives et économiser le budget d'annotation.

Le processus se déroule en plusieurs étapes clés à chaque ronde d'apprentissage actif :

A. Clustering Guidé par les Classes (Class-Guided Clustering)

Pour surmonter le problème du démarrage à froid et assurer une sélection équilibrée dès la première ronde :

Extraction de caractéristiques : Au lieu d'utiliser uniquement les caractéristiques d'image ( $I$ ), l'article introduit des caractéristiques guidées par la classe ( $F_C$ ).
Construction : $F_C$ est obtenu en concaténant les caractéristiques d'image avec des caractéristiques textuelles pondérées. Les poids sont déterminés par la similarité entre l'image et les classes cibles (calculée via l'encodeur texte du VLM).
Avantage : Cette approche permet de visualiser (via GradFAM, une variante de GradCAM) que les caractéristiques se concentrent sur les objets pertinents pour les classes cibles, contrairement aux caractéristiques d'image brutes qui peuvent être trop générales.
Clustering : Un algorithme K-means est appliqué sur ces caractéristiques $F_C$ . Contrairement aux méthodes classiques qui fixent $K$ arbitrairement, ici $K$ augmente progressivement avec le nombre de rondes ( $K = r \times B$ ) pour garantir une diversité croissante tout en évitant la redondance.

B. Fonction d'Acquisition Équilibrée par Cluster (Cluster-Balanced Acquisition)

À partir des clusters formés, l'algorithme sélectionne l'image la plus représentative (la plus proche du centroïde) de chaque cluster.
Cela assure une couverture diversifiée et équilibrée des classes dès le début, même sans étiquettes humaines initiales.

C. Requêtage Sélectif (Selective Querying) avec Seuil Adaptatif

Pour économiser le budget d'annotation :

Principe : Les VLM possèdent souvent une confiance élevée sur certaines classes ou images, même sans fine-tuning.
Mécanisme : Pour chaque classe, un seuil de confiance adaptatif ( $\epsilon_{r,c}$ ) est calculé à partir des données déjà étiquetées de la ronde précédente.
Décision :
- Si la confiance du modèle sur une image candidate dépasse le seuil de sa classe, une étiquette pseudo est attribuée (pas d'annotation humaine nécessaire).
- Si la confiance est inférieure au seuil, l'image est envoyée à un annotateur humain pour une étiquette vraie.
Cela permet de réduire significativement le nombre d'annotations manuelles requises par ronde tout en maintenant la qualité du jeu de données.

D. Apprentissage des Prompts

Les prompts apprenables sont réinitialisés et entraînés à chaque ronde sur le jeu de données accumulé (incluant les vraies étiquettes et les pseudo-étiquettes) en minimisant la perte d'entropie croisée. L'article propose également l'utilisation d'un prompt unifié (un seul vecteur pour toutes les classes) combiné aux prompts spécifiques par classe pour éviter le surapprentissage (overfitting) fréquent en contexte few-shot.

3. Contributions Clés

Cadre d'apprentissage actif économe en budget : Une méthode qui combine un clustering guidé par les classes et un requêtage sélectif pour adapter efficacement les VLM avec un minimum d'annotations.
Utilisation des priors VLM : Intégration des encodeurs image et texte pré-entraînés pour créer des caractéristiques hybrides ( $F_C$ ) qui résolvent le problème du démarrage à froid et améliorent la séparation des clusters.
Analyse approfondie : Utilisation de GradFAM et de T-SNE pour démontrer visuellement que les caractéristiques guidées par les classes capturent mieux la sémantique des objets cibles que les caractéristiques d'image seules.
Synergie avec les méthodes existantes : Démonstration que cette approche centrée sur les données peut améliorer les performances des méthodes centrées sur le modèle (comme MaPle, PromptSRC) en fournissant des jeux de données initiaux de meilleure qualité.

4. Résultats Expérimentaux

Les expériences ont été menées sur 7 jeux de données (OxfordPets, FGVCAircraft, Caltech101, Flowers102, DTD, StanfordCars, EuroSAT) et étendues à ImageNet.

Performance Globale : La méthode CB+SQ surpasse systématiquement les baselines de l'état de l'art (Random, Entropy, CoreSet, BADGE, PCB) en termes de précision pour un budget cumulatif donné.
Efficacité du Budget : Grâce au requêtage sélectif, la méthode atteint des performances supérieures aux autres méthodes tout en réduisant le budget d'annotation d'environ 17,6 %.
Démarrage à Froid : Contrairement aux autres méthodes qui souffrent d'une baisse de performance initiale, CB+SQ bénéficie d'un "warm-start" grâce au clustering guidé, affichant un gain de 19,5 points de pourcentage dès la première ronde par rapport aux baselines.
Généralisation : La méthode fonctionne bien sur des architectures VLM plus grandes (ViT-L, ViT-H) et sur des domaines non naturels (médical ISIC, art KaoKore).
Échelle : La méthode est applicable à grande échelle (ImageNet avec 1,28 million d'images) grâce à l'utilisation de K-means léger, contournant les limitations de calcul des méthodes basées sur BADGE.

5. Signification et Impact

Cet article marque un changement de paradigme dans l'adaptation des VLM : passer d'une approche purement centrée sur le modèle (optimisation des architectures de prompts) à une approche centrée sur les données (sélection intelligente des données d'entraînement).

Efficacité des ressources : Il démontre qu'il est possible d'obtenir des performances de pointe avec beaucoup moins d'annotations humaines, ce qui est crucial pour les applications industrielles où l'annotation est coûteuse.
Exploitation des Priors : Il montre que les connaissances implicites des grands modèles pré-entraînés (VLM) peuvent être exploitées non seulement pour l'inférence, mais aussi pour guider activement le processus d'apprentissage.
Généralité : La méthode est conçue pour être compatible avec les techniques de prompt learning existantes, offrant une stratégie générale pour l'adaptation scalable des modèles fondationnels.

En résumé, ce travail propose une solution robuste et économiquement efficace pour l'adaptation des modèles vision-langage, en combinant intelligemment le clustering sémantique et la gestion dynamique des budgets d'annotation.