Prompt Tuning for CLIP on the Pretrained Manifold

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un chef cuisinier de renommée mondiale (c'est le modèle CLIP pré-entraîné). Ce chef a passé des années à apprendre à cuisiner avec des millions de recettes, des ingrédients du monde entier et une compréhension profonde des saveurs. Il connaît parfaitement la "géographie" des saveurs : il sait exactement où se trouve le goût "chien", où se trouve le goût "voiture", et comment ces saveurs sont liées entre elles. C'est ce qu'on appelle le manifold pré-entraîné (la carte géographique des connaissances du chef).

Maintenant, imaginez que vous voulez que ce chef apprenne à cuisiner un nouveau plat spécifique, disons "le gâteau de grand-mère", mais vous n'avez que deux recettes à lui donner (c'est le problème de l'apprentissage avec peu de données, ou few-shot).

Le Problème : La Dérive (Le Chef qui s'éloigne de sa carte)

Les méthodes actuelles d'adaptation (le Prompt Tuning) fonctionnent un peu comme si vous donniez au chef une petite note avec des instructions. Le problème, c'est que sous la pression d'apprendre vite avec si peu d'exemples, le chef commence à inventer des choses.

Au lieu de rester fidèle à sa carte des saveurs (la géométrie pré-entraînée), il commence à s'éloigner. Il se dit : "Ah, dans ces deux recettes, le gâteau de grand-mère a toujours une tache de chocolat sur le côté. Donc, pour reconnaître ce gâteau, je vais chercher une tache de chocolat !"

C'est ce qu'on appelle la dérive du manifold. Le chef a oublié sa connaissance générale et s'est coincé dans un raccourci local (la tache de chocolat). Si vous lui montrez un gâteau sans tache, il ne le reconnaîtra plus. Il a appris par cœur les détails spécifiques de vos deux exemples au lieu de comprendre le concept général.

La Solution : ManiPT (Le GPS et le Guide)

Les auteurs de cette paper proposent une nouvelle méthode appelée ManiPT. Imaginez que ManiPT est un système de navigation intelligent qui aide le chef à apprendre sans se perdre.

Voici comment cela fonctionne, avec deux outils principaux :

1. La Contrainte de Cohérence (Le GPS)

Le GPS dit au chef : "Attends, reste sur la route principale !"
Au lieu de laisser le chef s'éloigner complètement, ManiPT impose une règle stricte : les nouvelles connaissances doivent rester géométriquement proches de ce que le chef savait déjà.

Analogie : C'est comme si vous disiez au chef : "Tu peux inventer de nouvelles épices, mais tu dois rester dans le rayon de 10 mètres de ta cuisine habituelle." Cela empêche le chef de s'égarer dans des directions absurdes (comme chercher une tache de chocolat sur un gâteau).

2. Le Biais Structurel (Le Guide qui corrige pas à pas)

Même si le chef reste dans le rayon de 10 mètres, il pourrait quand même choisir un mauvais chemin à l'intérieur de ce rayon. C'est là que le deuxième outil intervient.
ManiPT utilise une technique appelée corrections incrémentielles. Au lieu de remplacer la connaissance du chef par la nouvelle note, on ajoute la nouvelle note à l'ancienne connaissance.

Analogie : Imaginez que le chef a une carte très précise. Au lieu de jeter la carte et de dessiner une nouvelle carte à la main (ce qui risque d'être faux), ManiPT dit : "Garde ta carte, et ajoute juste une petite flèche rouge pour indiquer le nouveau plat."
Cela force le chef à faire de petits ajustements basés sur sa solide expérience, plutôt que de tout réinventer. Cela l'empêche de tomber dans les pièges des raccourcis (comme la tache de chocolat).

L'Enrichissement par IA (Le Livre de Cuisine de l'IA)

Pour aider le chef à mieux comprendre ce qu'est un "gâteau de grand-mère" avec seulement deux exemples, ManiPT utilise une autre IA (un LLM) pour générer des descriptions riches et détaillées du plat.

Analogie : Au lieu de dire juste "Gâteau", on donne au chef une description : "Un gâteau moelleux, avec de la cannelle, fait avec amour, souvent servi le dimanche." Cela donne au chef une boussole sémantique solide pour rester sur la bonne voie, même avec peu d'exemples visuels.

Le Résultat : Un Chef qui reste sage et adaptable

Grâce à ManiPT :

Le chef ne s'éloigne pas de sa carte de base (il ne fait pas de dérive).
Il apprend les nouveaux plats en ajustant doucement sa connaissance, sans oublier ses bases.
Il est capable de reconnaître le gâteau de grand-mère, même si vous lui montrez une version sans tache de chocolat, ou même si vous lui montrez un gâteau dans un style différent (domaine généralisation).

En résumé :
Les méthodes actuelles forcent le modèle à apprendre trop vite et il se perd dans des détails inutiles. ManiPT, lui, agit comme un mentor sage qui dit : "Reste ancré dans ce que tu sais déjà, fais de petits pas, et utilise la sagesse collective pour comprendre le nouveau." Le résultat est un modèle qui généralise beaucoup mieux, même avec très peu de données.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Le Dérive du Manifold et le Surapprentissage

Les modèles vision-langage pré-entraînés à grande échelle, tels que CLIP, apprennent des représentations générales sur un manifold pré-entraîné (une structure géométrique de basse dimension dans un espace de haute dimension). Le Prompt Tuning (ajustement par invite) est une méthode efficace pour adapter ces modèles à des tâches en aval avec peu de paramètres, en apprenant des vecteurs d'invite (prompts) tout en figeant le backbone.

Cependant, l'article identifie un problème critique sous supervision limitée (peu d'exemples, few-shot) :

Dérive du Manifold (Manifold Drift) : Les méthodes de prompt tuning existantes ont tendance à exploiter des signaux discriminatifs locaux (comme des motifs de fond ou des artefacts de texture) qui sont spécifiques au jeu de données d'entraînement. Cela pousse les représentations apprises à s'éloigner du manifold pré-entraîné vers des directions non transférables.
Apprentissage de raccourcis (Shortcut Learning) : En l'absence de contraintes géométriques, l'optimisation favorise des solutions qui fonctionnent bien sur les données d'entraînement mais qui échouent à généraliser vers de nouvelles classes ou des distributions différentes (domaines non vus).
Limitation des méthodes actuelles : Les approches existantes (CoOp, MaPLe, etc.) utilisent souvent des régularisations heuristiques sur les logits ou les paramètres, mais ne contrôlent pas explicitement la géométrie des caractéristiques (features) par rapport au manifold pré-entraîné.

2. Méthodologie : Le Framework ManiPT

Les auteurs proposent ManiPT, un cadre qui effectue le prompt tuning directement sur le manifold pré-entraîné. L'approche repose sur trois piliers principaux :

A. Enrichissement des Connaissances par LLM

Pour éviter d'apprendre des sémantiques instables sous supervision limitée, ManiPT utilise un Grand Modèle de Langage (LLM) pour générer des descriptions riches pour chaque classe. Ces descriptions sont encodées par le texteur CLIP figé pour former une banque de caractéristiques textuelles servant de prototypes sémantiques stables.

B. Contraintes de Cohérence Cosine (Cosine Consistency Constraints)

Pour empêcher la dérive du manifold, ManiPT impose des contraintes de cohérence géométrique sur les deux modalités (image et texte) :

Côté Image : Une perte de cohérence assure que les caractéristiques visuelles adaptées restent proches des caractéristiques visuelles figées du modèle pré-entraîné.
Côté Texte : Une perte de cohérence assure que les caractéristiques textuelles générées par les invites restent alignées avec les prototypes sémantiques robustes dérivés du LLM.
Ces contraintes limitent l'adaptation des caractéristiques à un voisinage géométrique du manifold pré-entraîné.

C. Biais Structurel par Agrégation Additive (Structural Bias)

Le simple fait de rester dans le voisinage du manifold ne suffit pas, car des solutions de "raccourcis" peuvent encore exister localement. ManiPT introduit un biais structurel via une fusion additive normalisée :

Au lieu de remplacer les caractéristiques figées, les caractéristiques apprises par les invites sont additionnées aux caractéristiques figées, puis normalisées.
Fusion : $f = \text{norm}(z_{\text{figé}} + h_{\text{invite}})$ .
Effet : Cette structure impose une contraction géométrique. Elle force le modèle à effectuer des corrections incrémentales par rapport aux représentations pré-entraînées, guidant l'adaptation vers des directions transférables et supprimant la dépendance aux raccourcis spécifiques au jeu de données.

3. Contributions Clés

Identification du problème de dérive : Les auteurs formalisent mathématiquement la "dérive du manifold" comme un facteur limitant la généralisation sous supervision limitée, en décomposant le déplacement des caractéristiques en composantes transférables et raccourcis.
Proposition de ManiPT : Un nouveau cadre qui combine des contraintes de cohérence cosine (pour la stabilité géométrique) et un biais structurel additif (pour l'adaptation incrémentale).
Garanties Théoriques : L'article fournit une analyse théorique démontrant que ManiPT réduit la borne de risque de population (population risk) en limitant la perturbation des logits et en contrôlant la complexité de Rademacher, atténuant ainsi le surapprentissage.
Validation Expérimentale Large : Des expériences menées sur 15 jeux de données couvrant la généralisation aux classes non vues, le few-shot, le transfert inter-jeux de données et la généralisation de domaine.

4. Résultats Expérimentaux

ManiPT a été évalué sur 15 jeux de données (ImageNet, Caltech101, OxfordPets, etc.) et comparé à l'état de l'art (CoOp, CoCoOp, MaPLe, PromptSRC, etc.) :

Généralisation Base-to-Novel : ManiPT obtient les meilleures performances moyennes sur 11 jeux de données, surpassant les méthodes de référence. Cela indique une meilleure équilibre entre la rétention des connaissances de base et la généralisation aux nouvelles classes.
Transfert Inter-Jeux de Données : Entraîné sur ImageNet et testé sur 10 autres jeux de données en zero-shot, ManiPT atteint une précision moyenne de 68,04%, surpassant CoPrompt (66,99%) et TAC (66,53%).
Généralisation de Domaine : Sur les variantes d'ImageNet (V2, Sketch, A, R), ManiPT maintient une robustesse supérieure, confirmant sa capacité à filtrer le bruit spécifique au domaine.
Classification Few-Shot : ManiPT surpasse systématiquement les baselines dans tous les scénarios (1, 2, 4, 8, 16 shots), avec des gains particulièrement marqués en 1-shot et 2-shot.
Analyse de la Dérive : Une analyse quantitative via PCA montre que ManiPT maintient une dérive du manifold ( $\Delta$ ) proche de zéro, contrairement aux autres méthodes qui présentent une dérive significative.

5. Signification et Impact

Perspective Géométrique : ManiPT offre une nouvelle perspective sur l'adaptation des modèles fondationnels, passant d'une régularisation heuristique à un contrôle géométrique explicite du manifold.
Efficacité et Robustesse : La méthode démontre qu'il est possible d'adapter des modèles massifs avec très peu de paramètres (0,25M) tout en évitant le surapprentissage, ce qui est crucial pour les applications réelles où les données sont rares.
Compréhension du Surapprentissage : L'article éclaire le mécanisme par lequel le prompt tuning échoue sous faible supervision (dérive hors du manifold) et propose une solution structurelle pour y remédier.
Limites : Les auteurs notent que la fusion additive introduit une légère latence par rapport aux méthodes à branche unique et que la méthode dépend de la qualité des connaissances externes (LLM) pour l'ancrage sémantique.

En résumé, ManiPT représente une avancée significative dans l'adaptation efficace des modèles vision-langage, en assurant que l'apprentissage se produit dans les directions sémantiques robustes établies par le pré-entraînement, plutôt que dans des raccourcis spécifiques aux données.