SOTA: Self-adaptive Optimal Transport for Zero-Shot Classification with Multiple Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de reconnaître des objets dans une photo, mais vous n'avez jamais vu ce type d'objet auparavant. C'est le défi de la classification "zero-shot" (sans exemple préalable).

Pour résoudre ce problème, les chercheurs utilisent des "modèles fondateurs" (des super-intelligences artificielles pré-entraînées). Mais voici le problème : ces modèles ont tous des forces et des faiblesses différentes, un peu comme une équipe de détectives avec des spécialités variées.

Voici une explication simple de la méthode SOTA proposée dans ce papier, en utilisant des analogies du quotidien.

1. Le Problème : Deux types de détectives imparfaits

L'auteur observe deux types d'experts :

Les "Vision-Language" (comme CLIP) : Ce sont des experts en langage. Ils ont lu des millions de livres et de légendes sur internet. Ils savent très bien associer un mot (ex: "aigle") à une image.
- Leur défaut : Ils sont parfois trop confiants dans leurs mots. Si vous leur montrez un oiseau qui ressemble à un aigle mais qui est un faucon, ils diront "Aigle !" parce que le mot "aigle" colle mieux à leur description, même si l'image est différente. Ils ratent les détails fins.
Les "Vision-only" (comme DINO) : Ce sont des experts en formes et textures. Ils n'ont jamais lu de livres, mais ils ont regardé des milliards d'images. Ils voient les différences subtiles (la forme du bec, la texture des plumes).
- Leur défaut : Ils ne savent pas parler. Ils voient que deux oiseaux sont différents, mais ils ne savent pas dire "C'est un aigle" ou "C'est un faucon". Ils n'ont pas de noms pour leurs observations.

Le dilemme : Si vous utilisez un seul modèle, vous faites des erreurs. Si vous en utilisez plusieurs, comment les faire travailler ensemble sans qu'ils se disputent ou que l'un domine l'autre ?

2. La Solution : SOTA, le Chef d'Orchestre Adaptatif

La méthode SOTA (Self-adaptive Optimal Transport) est comme un chef d'orchestre très intelligent qui dirige un groupe de musiciens (les différents modèles).

Au lieu de demander à chaque musicien de jouer à volume égal (ce qui serait bête si l'un joue faux), SOTA écoute tout le monde en temps réel et ajuste le volume de chacun dynamiquement.

L'analogie du "Transport Optimal" (Le déménagement)

Pour comprendre comment SOTA fonctionne, imaginez un déménagement :

Vous avez des cartons (vos images) à déplacer.
Vous avez des pièces (les catégories : chat, chien, voiture).
Chaque modèle vous donne une estimation : "Ce carton va probablement dans la pièce A".

Le problème, c'est que les modèles sont en désaccord. L'un dit "Pièce A", l'autre dit "Pièce B".

SOTA utilise une technique mathématique appelée "Transport Optimal" :
C'est comme si SOTA calculait le chemin le plus efficace pour déplacer tous les cartons vers les pièces, en minimisant l'effort total.

Si un modèle est très sûr de lui (il a une bonne vue des détails), SOTA lui fait confiance et le "coût" pour suivre son avis est faible.
Si un modèle hésite ou se trompe souvent, SOTA réduit son influence.

La magie de "Self-adaptive" (Auto-adaptatif) :
SOTA n'a pas besoin que vous lui disiez : "Fais confiance à CLIP pour les chats et à DINO pour les voitures". Il apprend tout seul pendant le processus.

Il regarde les résultats.
Il se dit : "Tiens, le modèle A a raison sur cette image, je vais lui donner plus de poids pour la prochaine."
Il ajuste les poids en continu, comme un chef d'orchestre qui demande au violoniste de jouer plus fort et au batteur de se calmer, selon la mélodie du moment.

3. Pourquoi c'est génial ?

Pas de réapprentissage (Training-free) : Vous n'avez pas besoin de réentraîner ces super-modèles (ce qui coûte des millions de dollars et des mois de calcul). SOTA fonctionne juste en "réglant" les sorties existantes. C'est comme changer les réglages d'une radio sans changer la radio elle-même.
Robuste partout : Que ce soit pour des photos de nature, des images médicales (tumeurs) ou des photos de satellites, SOTA s'adapte. Il sait que dans un hôpital, les modèles médicaux sont plus forts, et dans un zoo, les modèles généraux sont meilleurs.
Le meilleur des deux mondes : Il combine la compréhension des mots (pour savoir ce qu'on cherche) et la perception visuelle fine (pour ne pas se tromper sur les détails).

En résumé

Imaginez que vous devez deviner le contenu d'une boîte fermée.

Le Modèle A dit : "C'est un chat, j'ai lu ça dans un livre."
Le Modèle B dit : "Non, la texture est bizarre, ce n'est pas un chat, c'est un faucon."

SOTA est le médiateur qui écoute les deux. Il réalise que le Modèle B a raison sur la texture, mais que le Modèle A a raison sur le contexte. Il combine leurs avis intelligemment pour vous donner la réponse exacte : "C'est un faucon", sans avoir besoin de rouvrir la boîte pour l'entraîner.

C'est une méthode simple, gratuite (pas de réentraînement), et incroyablement efficace pour faire travailler ensemble différentes intelligences artificielles.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La classification Zero-Shot (ZS) vise à reconnaître des instances appartenant à des catégories jamais vues lors de l'entraînement, sans échantillons étiquetés supplémentaires. Les Modèles Fondation (Foundation Models), tels que CLIP (Vision-Language) et DINO (Vision-only), ont révolutionné ce domaine grâce à leurs capacités de transfert.

Cependant, l'article identifie deux limites majeures :

Dépendance aux priors textuels vs. manque de sémantique :
- Les VLMs (Vision-Language Models comme CLIP) excellent dans l'alignement modal mais ont tendance à trop dépendre des priors textuels au niveau de la classe, échouant souvent à capturer des indices visuels fins (nécessaires pour des tâches comme la distinction de races de voitures ou d'espèces florales).
- Les VFMs (Vision-only Foundation Models comme DINO) fournissent des représentations visuelles riches et discriminatives mais manquent d'alignement sémantique direct avec les étiquettes de classe.
Variabilité des performances : La performance d'un VLM donné varie considérablement d'un jeu de données à l'autre en raison des différences dans leurs stratégies de pré-entraînement.

Question centrale : Comment intégrer les forces complémentaires de plusieurs modèles fondation (VLMs et VFMs) pour améliorer la classification Zero-Shot sans nécessiter de réentraînement (fine-tuning) ni d'accès aux poids internes des modèles (boîte noire) ?

2. Méthodologie : SOTA (Self-adaptive Optimal Transport)

L'approche proposée, SOTA, est un cadre d'ensemble sans entraînement (training-free) qui utilise le Transport Optimal (OT) pour fusionner les sorties de plusieurs modèles.

A. Principes Fondamentaux

SOTA traite chaque modèle fondation comme une "vue" distincte mesurant la pertinence entre les échantillons et les classes candidates.

Pour les VFMs : Les features visuels sont modélisés par un Gaussian Mixture Model (GMM). La probabilité postérieure de chaque classe pour un échantillon est calculée, formant une matrice de distribution $P$ .
Pour les VLMs : La similarité entre les features d'image et les embeddings de texte (via une fonction de température) est utilisée pour générer une distribution de probabilité $\hat{P}$ .

B. Transport Optimal Auto-adaptatif

Au lieu de pondérer manuellement les matrices de coûts (ou de probabilités) de chaque modèle, SOTA apprend un plan de transport $T$ qui minimise le coût global de transport entre la distribution des échantillons et celle des classes.

L'objectif d'optimisation (dans le cadre inductif) est formulé comme suit :
$\max_{T, \Theta} \sum_{v} \langle T, P_v(\Theta) \rangle^2 + \sum_{v} \langle T, \hat{P}_v \rangle^2 + \epsilon H(T)$
Où :

$T$ est le plan de transport (affectation souple des échantillons aux classes).
$P_v(\Theta)$ et $\hat{P}_v$ sont les distributions issues des VFMs (dépendant des paramètres GMM $\Theta$ ) et des VLMs.
Le terme au carré $\langle T, P \rangle^2$ permet une auto-adaptation : les modèles dont le plan de transport est plus cohérent (coût plus faible) reçoivent automatiquement un poids plus élevé lors de l'itération suivante, sans validation étiquetée.
$H(T)$ est un terme de régularisation entropique pour assurer la stabilité numérique.

C. Procédure d'Optimisation

L'algorithme utilise une stratégie Minorization-Maximization (MM) itérative :

Mise à jour du plan de transport $T$ : Résolution d'un problème de transport optimal régularisé par entropie (algorithme de Sinkhorn) avec des poids adaptatifs dérivés des itérations précédentes.
Mise à jour des paramètres GMM ( $\Theta$ ) : Utilisation du plan $T$ comme affectation "soft" pour mettre à jour les paramètres du GMM (étape M de l'algorithme EM).
Boucle fermée : Ces deux étapes s'influencent mutuellement, alignant progressivement les clusters visuels (VFMs) avec la sémantique textuelle (VLMs).

D. Modes d'Inférence

Transductif : Le plan de transport $T$ calculé sur l'ensemble des données non étiquetées est utilisé directement comme prédiction finale.
Inductif : Le plan $T$ sert de guide supervisé pour apprendre des classifieurs individuels (GMM pour les VFMs, classifieurs visuels pour les VLMs) sur les données d'entraînement, qui sont ensuite combinés pour prédire sur de nouvelles données de test.

3. Contributions Clés

Nouvelle Perspective : C'est la première étude à systématiquement explorer les forces complémentaires des VLMs et des VFMs pour la classification Zero-Shot, ouvrant une nouvelle voie vers l'intégration multi-modèles.
Méthode Innovante (SOTA) :
- Sans entraînement (Training-free) : Ne nécessite pas de fine-tuning des modèles fondation.
- Compatible Boîte Noire : Fonctionne même si les modèles sont accessibles uniquement via API (pas besoin des poids internes).
- Auto-adaptatif : Équilibre automatiquement les contributions des modèles sans hyperparamètres manuels ni données de validation.
Résultats Prometteurs : Validation sur 26 benchmarks couvrant trois domaines distincts : images naturelles, imagerie médicale (pathologie) et télédétection.

4. Résultats Expérimentaux

Les expériences montrent que SOTA surpasse systématiquement les modèles individuels et les méthodes de l'état de l'art (SOTA) :

Images Naturelles (11 jeux de données) : SOTA améliore significativement la précision Top-1 par rapport aux meilleurs modèles uniques (ex: +12.2% en moyenne sur ImageNet par rapport à CLIP-1). L'utilisation de DINOv3 en combinaison avec CLIP donne les meilleurs résultats, prouvant la complémentarité.
Télédétection (10 jeux de données) : SOTA dépasse les méthodes adaptatives comme TransCLIP, atteignant des gains de +17.0% en moyenne sur les modèles de base.
Pathologie Médicale (5 jeux de données) : SOTA obtient des performances supérieures aux modèles spécialisés (CONCH, PLIP, MUSK), avec une amélioration moyenne de +14.1% par rapport au meilleur modèle unique.
Analyse d'ablation :
- L'introduction des VFMs est cruciale (gain de +11.1% à +12.9% selon le domaine).
- Le mécanisme auto-adaptatif est supérieur à une pondération fixe.
- L'apprentissage couplé (joint-learning) des paramètres GMM et du plan de transport est essentiel pour la convergence optimale.
Efficacité : La méthode converge rapidement (généralement en <10 itérations) et reste légère en calcul par rapport aux méthodes basées sur des graphes complexes.

5. Signification et Impact

Ce travail démontre que l'intégration intelligente de modèles hétérogènes (visuels purs et multimodaux) via le Transport Optimal permet de surmonter les limitations inhérentes à chaque type de modèle fondation.

Robustesse : SOTA est robuste aux variations de domaine (naturel, médical, satellite) sans nécessiter d'adaptation spécifique au domaine.
Accessibilité : En étant "training-free" et compatible avec les API, SOTA rend les performances de pointe accessibles aux chercheurs et praticiens qui ne peuvent pas réentraîner des modèles massifs.
Futur : L'approche ouvre la voie à des stratégies d'ensemble plus sophistiquées exploitant la complémentarité sémantique et visuelle à un niveau profond, sans dépendre de l'étiquetage manuel.

En résumé, SOTA propose une solution élégante et efficace pour transformer la diversité des modèles fondation en un avantage compétitif majeur pour la classification Zero-Shot.