Local-Global Prompt Learning via Sparse Optimal Transport

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : L'Artiste qui ne voit que la silhouette

Imaginez que vous essayez d'enseigner à un artiste (l'intelligence artificielle, ou "CLIP") à reconnaître des centaines d'espèces d'oiseaux différentes.

La méthode classique : Vous montrez une photo d'un moineau et vous dites "C'est un moineau". L'artiste regarde l'oiseau entier, fait une moyenne de tout ce qu'il voit (le ciel, l'arbre, le corps de l'oiseau) et retient une "idée globale".
Le problème : Si vous lui montrez ensuite un moineau très similaire mais avec une petite tache rouge sur le bec, l'artiste classique risque de se tromper. Il a trop regardé l'ensemble et a ignoré le détail crucial (la tache rouge). De plus, s'il doit apprendre 100 espèces, il a tendance à confondre les détails entre elles.

🚀 La Solution : SOT-GLP (Le Détective à Double Vision)

Les auteurs de cet article ont créé une nouvelle méthode appelée SOT-GLP. Imaginez que cet artiste est remplacé par une équipe de deux détectives très spécialisés qui travaillent ensemble :

1. Le Détective "Gros Plan" (La Branche Globale)

C'est le détective classique. Il regarde l'image entière pour comprendre le contexte général.

Son rôle : "Ah, c'est un oiseau, il est dans un arbre."
Pourquoi c'est utile : Cela évite les erreurs grossières et garde la stabilité.

2. Le Détective "Microscope" (La Branche Locale)

C'est le nouveau super-pouvoir. Au lieu de regarder l'image en bloc, ce détective utilise une loupe magique (appelée attention V-V) pour scanner uniquement les zones intéressantes : le bec, les plumes, les yeux.

Son rôle : "Attends, regarde cette plume bleue spécifique et la forme de ce bec. C'est un moineau, pas un pinson !"

🧩 Le Secret : Le "Transport Optimal" (Le Chef d'Orchestre)

C'est ici que la magie opère. Dans les anciennes méthodes, chaque détective (ou chaque "prompt" d'apprentissage) choisissait ses propres zones à regarder. Résultat ? Ils se marchaient tous sur les pieds en regardant la même zone (le bec) et ignoraient les autres détails importants.

SOT-GLP introduit un Chef d'Orchestre (l'Optimal Transport) qui fait deux choses intelligentes :

Il nettoie la scène : Il jette les zones inutiles (le ciel, les feuilles floues) et ne garde que les 10 zones les plus importantes de l'image.
Il répartit le travail équitablement : Il dit au Détective A : "Toi, tu regardes le bec." Il dit au Détective B : "Toi, tu regardes la queue." Il dit au Détective C : "Toi, tu regardes les ailes."

Grâce à cette répartition équilibrée, chaque détail important est analysé par un expert différent, sans qu'ils ne se chevauchent. C'est comme si vous divisiez une équipe de pompiers : au lieu que tout le monde essaie d'éteindre le même feu, chacun s'occupe d'une zone différente pour éteindre l'incendie plus vite.

⚖️ Le Dilemme : Précision vs Sécurité (Le compromis)

L'article révèle une découverte fascinante, un peu comme choisir entre une voiture de course et un véhicule tout-terrain :

Option A (La voiture de course) : On laisse l'artiste apprendre de nouvelles règles très spécifiques pour chaque type d'oiseau.
- Avantage : Il devient incroyablement précis pour reconnaître les oiseaux qu'il a déjà vus (meilleure précision sur les images connues).
- Inconvénient : Il devient un peu "confiant" même quand il voit quelque chose d'étrange (il pourrait confondre un oiseau avec un avion).
Option B (Le véhicule tout-terrain) : On retire la partie qui apprend de nouvelles règles spécifiques et on laisse l'artiste utiliser sa vision naturelle.
- Avantage : Il devient un expert pour dire "Hé, ça ne ressemble à rien que je connaisse !" (meilleure détection d'objets inconnus ou "hors distribution").
- Inconvénient : Il est légèrement moins précis sur les oiseaux qu'il connaît déjà, mais reste très bon.

🏆 Le Résultat

En combinant ces deux approches (le gros plan + le microscope + le chef d'orchestre), SOT-GLP bat tous les records actuels :

Il apprend très vite avec peu d'exemples (comme un enfant qui apprend en voyant 16 photos).
Il est excellent pour repérer les choses étranges ou inattendues.

En résumé : SOT-GLP est comme une équipe de détectives qui ne se contentent pas de regarder l'image entière. Ils utilisent un système intelligent pour diviser l'image en pièces de puzzle, attribuer chaque pièce à un expert différent, et ainsi comprendre l'image avec une précision chirurgicale, tout en restant capables de dire "Je ne connais pas ça" quand ils sont face à une image bizarre.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'adaptation few-shot (peu d'exemples) des modèles vision-langage (VLM) comme CLIP repose souvent sur l'apprentissage de prompts textuels adaptés à des embeddings d'images globaux. Cependant, cette approche présente deux limites majeures :

Perte de détails fins : L'alignement global (basé sur le token [CLS]) moyenne les informations spatiales, ignorant les caractéristiques locales cruciales (textures, parties d'objets, configurations spatiales) nécessaires pour distinguer des catégories similaires ou détecter des données hors distribution (OOD).
Redondance et chevauchement : Les méthodes existantes qui tentent d'utiliser des caractéristiques locales sélectionnent souvent des régions indépendamment pour chaque prompt. Cela conduit à une redondance où plusieurs prompts s'attardent sur les mêmes zones dominantes, limitant la spécialisation effective et causant un "effondrement" des prompts (plusieurs prompts apprenant la même chose).

L'objectif est donc de concevoir un cadre qui préserve l'alignement global robuste tout en intégrant une structure spatiale fine, en assurant une répartition non redondante des preuves visuelles entre les prompts spécifiques à chaque classe.

2. Méthodologie : SOT-GLP

Les auteurs proposent SOT-GLP (Sparse Optimal Transport Guided Local-Global Prompt Learning), une architecture à double branche conçue pour aligner des prompts globaux et locaux de manière complémentaire.

A. Architecture à Double Branche

Branche Globale :
- Maintient l'alignement image-texte standard de CLIP en utilisant le token [CLS] et des prompts globaux partagés entre toutes les classes.
- Assure une généralisation robuste au niveau de la catégorie et prévient le surapprentissage (overfitting).
Branche Locale :
- Extraction de caractéristiques (V-V Attention) : Au lieu de l'attention standard Query-Key (Q-K) de CLIP, la méthode utilise une attention Value-Value (V-V). Cette approche renforce les interactions directes entre les patches, produisant des représentations locales plus discriminatives et moins sensibles au bruit de fond.
- Sparsification guidée par la saillance : Pour éviter d'aligner des patches non pertinents (arrière-plan), un mécanisme filtre les patches en ne conservant que les $K$ patches les plus saillants (Top-K) par rapport à un ensemble de prompts locaux.

B. Alignement par Transport Optimal Sparse (SOT)

C'est le cœur de l'innovation. Au lieu de sélectionner des patches indépendamment pour chaque prompt, la méthode utilise le Transport Optimal Entropique Balancé :

Support Partagé : Un seul ensemble de patches saillants (Top-K) est sélectionné pour l'image.
Allocation Équilibrée : Un plan de transport $T$ est calculé pour répartir ces patches parmi les prompts locaux spécifiques à chaque classe.
Contrainte de Marges Uniformes : En imposant des marges uniformes, le modèle force chaque prompt à recevoir une masse d'assignation comparable. Cela empêche l'effondrement des prompts (où tous les prompts se concentrent sur le même patch) et assure une spécialisation diversifiée (ex: un prompt pour la tête, un autre pour la queue).
Perte : Une perte de transport pondérée est ajoutée à la perte globale pour optimiser l'alignement fin.

C. Inférence et Détection OOD

Classification : Le score final combine les scores globaux et locaux (pondérés par un hyperparamètre $\lambda$ ).
Détection OOD : Une variante sans projection apprenable dans la branche locale est proposée. En préservant la géométrie native du manifold de CLIP (sans adapter les caractéristiques locales via une projection apprenable), le modèle maintient une meilleure calibration des confiances pour les données hors distribution.

3. Contributions Clés

Cadre SOT-GLP : Introduction d'une architecture dual-branch combinant alignement global et alignement local guidé par le transport optimal pour une spécialisation non redondante des prompts.
Attention V-V et Transport Optimal : Utilisation pionnière de l'attention V-V pour l'extraction locale et d'un transport optimal équilibré pour partitionner les patches saillants entre les prompts, résolvant le problème de chevauchement.
Découverte du compromis Précision-Robustesse : Les auteurs identifient et démontrent un compromis distinct :
- L'utilisation d'une projection locale apprenable maximise la précision few-shot (+0,9 %).
- Le retrait de cette projection préserve la géométrie pré-entraînée de CLIP, offrant des performances de détection OOD (hors distribution) de pointe (AUC 94,2 %), surpassant les modèles entièrement adaptés.
Performance de pointe : SOT-GLP établit de nouveaux records sur 9 des 11 benchmarks standards en classification few-shot.

4. Résultats Expérimentaux

Les évaluations ont été menées sur 11 benchmarks (ImageNet, Caltech101, OxfordPets, Cars, Flowers101, etc.) avec 16 exemples par classe (16-shot) et sur des tâches de détection OOD.

Classification Few-Shot :
- SOT-GLP atteint une précision moyenne de 85,1 %, surpassant toutes les méthodes de prompt learning précédentes (y compris GalLoP, CoOp, MaPLe).
- Les gains sont particulièrement marqués sur les tâches nécessitant une discrimination fine (textures, parties d'objets) comme DTD (+2,6 % vs GalLoP) et Flowers102.
Détection Out-of-Distribution (OOD) :
- La variante SOT-GLP sans projection locale atteint un FPR95 de 23,8 et un AUC de 94,2, surpassant tous les baselines (y compris GalLoP et LoCoOp).
- Cela démontre que l'adaptation excessive des caractéristiques locales (via projection) nuit à la capacité de détecter les anomalies, tandis que l'alignement natif est plus robuste.
Analyse Ablative :
- L'attention V-V apporte +0,3 % de précision moyenne.
- La projection locale apporte +0,9 % de précision (mais réduit la robustesse OOD).
- Les prompts locaux spécifiques à la classe sont essentiels pour les tâches fines (gains de ~0,6 %).

5. Signification et Impact

Ce travail est significatif car il résout un problème fondamental dans l'apprentissage de prompts : la gestion de l'attention locale multiple. En remplaçant la sélection indépendante par un transport optimal équilibré, SOT-GLP garantit que chaque prompt apprend des caractéristiques visuelles complémentaires plutôt que redondantes.

De plus, la découverte du compromis Précision vs Robustesse OOD offre aux praticiens une flexibilité cruciale :

Pour des tâches où la précision sur les classes connues est primordiale, on utilise la projection apprenable.
Pour des environnements ouverts où la détection d'intrus (OOD) est critique, on désactive la projection pour maximiser la robustesse sans sacrifier significativement la précision.

Enfin, la méthode reste efficace avec un coût computationnel modéré (le transport optimal s'effectuant sur un sous-ensemble de patches), rendant l'approche viable pour des déploiements réels sur des modèles VLM à grande échelle.