Towards Calibrating Prompt Tuning of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous avez un génie très intelligent (le modèle CLIP) qui a lu des millions de livres et vu des milliards de photos. Il connaît le monde par cœur. Mais si vous lui demandez de reconnaître des objets très spécifiques (comme des races de chiens rares ou des types de tissus), il a besoin d'un petit coup de pouce pour se concentrer. C'est là qu'intervient le "Prompt Tuning" (le réglage par prompts).

Le Problème : Le Génie Confiant mais Imprévisible

Le problème, c'est que ce "coup de pouce" rend le génie un peu instable émotionnellement :

Pour ce qu'il connaît déjà (les classes de base) : Il devient trop timide. Il voit un chien, il est sûr à 99% que c'est un chien, mais il vous dit : "Euh, je suis à 40% sûr". Il manque de confiance alors qu'il a raison.
Pour ce qu'il ne connaît pas (les nouvelles classes) : Il devient arrogant. Il voit un objet bizarre, il ne sait pas ce que c'est, mais il vous dit avec 99% de certitude : "C'est un avion !" alors que c'est un chat. C'est dangereux, surtout si ce modèle pilote une voiture autonome ou aide un médecin.

En résumé : le modèle est mal calibré. Sa "confiance" ne correspond pas à sa "réalité".

La Solution : Une Ceinture de Sécurité à Double Fonction

Les auteurs proposent une nouvelle méthode pour rééduquer ce génie sans lui apprendre tout depuis zéro (ce qui serait trop long et coûteux). Ils ajoutent deux "règles" (des régularisateurs) pendant l'entraînement, comme un coach sportif qui corrige la posture.

1. La Règle de la "Distance Juste" (Mean-Variance Margin)

Imaginez que le modèle doit séparer les objets dans une pièce.

Le problème actuel : Parfois, les objets sont trop collés les uns aux autres (le modèle hésite), ou parfois, il y a des espaces gigantesques et vides entre eux (le modèle est trop confiant sur de mauvaises réponses).
La solution : Le coach dit : "Gardez une distance suffisante entre les bons et les mauvais objets, mais ne laissez pas cette distance varier de façon folle."
L'analogie : C'est comme régler le volume d'une radio. On veut que la musique soit assez forte pour être entendue (pas de timidité), mais pas si forte qu'elle distord le son (pas d'arrogance). Cette règle stabilise le volume pour que le modèle soit honnête sur sa confiance.

2. La Règle du "Miroir Sémantique" (Text Moment-Matching)

Le modèle a une carte mentale du monde (un espace d'embeddings) où les mots sont placés selon leur sens. "Chien" est près de "Loup" et loin de "Voiture".

Le problème actuel : Quand on l'entraîne sur de nouvelles tâches, il déforme cette carte mentale. Il rapproche des choses qui ne devraient pas l'être, créant des raccourcis dangereux.
La solution : Le coach dit : "Quand tu apprends, assure-toi que la forme globale de ta carte mentale reste la même que celle du modèle original."
L'analogie : Imaginez que vous déplacez des meubles dans une maison. Vous pouvez déplacer le canapé pour qu'il soit plus confortable (adaptation à la tâche), mais vous ne devez pas casser les murs ou déplacer la cuisine dans le salon. Cette règle s'assure que la structure fondamentale de la maison (la sémantique) reste intacte, même si on réarrange les meubles.

Le Résultat : Un Modèle Fiable et Polyvalent

En combinant ces deux règles, les auteurs obtiennent un modèle qui :

Est plus honnête : Si le modèle dit "Je suis sûr à 90%", il a vraiment 90% de chances d'avoir raison.
Garde ses talents : Il reste aussi bon pour reconnaître les objets qu'il ne connaît pas (généralisation), car on n'a pas cassé sa carte mentale originale.
Ne coûte rien de plus : Cela s'ajoute comme un petit module "plug-and-play" sans ralentir le modèle.

En Bref

C'est comme donner un thermostat intelligent à un système de chauffage. Au lieu de laisser le modèle chauffer à fond (trop confiant) ou ne pas chauffer du tout (pas assez confiant), ce système ajuste automatiquement la température pour qu'elle corresponde exactement à la réalité, que ce soit en hiver (classes connues) ou en été (classes inconnues).

C'est une avancée cruciale pour rendre l'Intelligence Artificielle plus sûre et fiable dans le monde réel, que ce soit pour diagnostiquer des maladies ou conduire des voitures autonomes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles vision-langage (VLM) à grande échelle, tels que CLIP, ont révolutionné la reconnaissance d'images à vocabulaire ouvert grâce à leur capacité d'adaptation efficace via le réglage par prompt (prompt tuning). Cette technique permet d'adapter le modèle à des tâches spécifiques en ne modifiant qu'un petit sous-ensemble de paramètres (les tokens de prompt), tout en gelant les encodeurs d'images et de texte.

Cependant, bien que le réglage par prompt améliore la précision sur les classes vues (classes de base), il introduit un problème critique de mauvaise étalonnage de la confiance (miscalibration) :

Sous-confiance sur les classes de base : Le modèle devient trop prudent, avec des marges de logit réduites entre la classe correcte et les classes incorrectes, entraînant des probabilités prédites inférieures à la précision réelle.
Surconfiance sur les classes nouvelles (novel) : Le modèle devient excessivement confiant pour les classes jamais vues lors de l'entraînement, souvent en raison d'une distorsion de l'espace d'embedding pré-entraîné, ce qui conduit à des erreurs de haute confiance dangereuses dans des applications critiques (santé, systèmes autonomes).

Les méthodes d'étalonnage existantes (comme l'échelle de température post-hoc ou la normalisation des logits) échouent souvent car elles ne préservent pas la géométrie sémantique originale de l'espace d'embedding de CLIP, nécessaire à une généralisation robuste.

2. Méthodologie Proposée

Les auteurs proposent un cadre d'étalonnage au moment de l'entraînement (train-time) qui intègre deux régularisateurs complémentaires à la fonction de perte d'entropie croisée standard. L'objectif est de stabiliser les marges de prédiction tout en préservant la structure géométrique de l'espace d'embedding pré-entraîné.

A. Régularisation par Moyenne-Variance des Marges (Mean-Variance Margin Regularization)

Cette composante vise à façonner la distribution des logit pour corriger la sous-confiance et la surconfiance :

Terme de Moyenne ( $\alpha$ ) : Maximise la marge moyenne entre le logit de la classe vraie et le logit le plus élevé des classes incorrectes. Cela force le modèle à être suffisamment confiant sur les classes de base.
Terme de Variance ( $\beta$ ) : Minimise la dispersion (variance) de ces marges au sein d'un lot (batch). Cela empêche l'apparition de pics de confiance erratiques sur les classes nouvelles, évitant ainsi la surconfiance.
Formule : $L_{Margin} = -\alpha \cdot \text{Moyenne}(m_i) + \beta \cdot \text{Var}(m_i)$ , où $m_i$ est la marge par échantillon.

B. Perte d'Appariement des Moments Textuels (Text Moment-Matching Loss)

Cette composante agit directement sur l'espace d'embedding textuel pour préserver la structure sémantique globale :

Elle aligne les premiers moments (moyenne) et les seconds moments (covariance/dispersion) des embeddings de texte ajustés (tuned) avec ceux des embeddings de texte gelés (frozen) de CLIP.
Objectif : Empêcher l'effondrement ou le regroupement artificiel des embeddings qui crée des relations sémantiques fausses. Cela garantit que la structure relative des classes est maintenue, ce qui est crucial pour la généralisation aux classes nouvelles.
Formule : $L_{mom} = \|\mu_{\tilde{c}} - \mu_{c_0}\|_2^2 + \|\Sigma_{\tilde{c}} - \Sigma_{c_0}\|_F^2$ .

Fonction de Perte Globale

La perte totale combine l'entropie croisée ( $L_{CE}$ ) et les deux régularisateurs :
$L_{total} = L_{CE} + \lambda_{Margin} L_{Margin} + \lambda_{mom} L_{mom}$

3. Contributions Clés

Identification du problème dual : Mise en évidence que le réglage par prompt crée simultanément de la sous-confiance sur les classes de base et de la surconfiance sur les classes nouvelles, nécessitant une approche de correction conjointe.
Cadre de régularisation hybride : Introduction d'une méthode qui agit à la fois sur l'espace des logit (via les marges) et sur l'espace des embeddings (via l'appariement des moments), offrant une solution plus complète que les méthodes post-hoc.
Généralité et modularité : La méthode est agnostique à la technique de réglage par prompt sous-jacente (CoOp, MaPLe, KgCoOp, etc.) et fonctionne comme un module "plug-and-play" sans nécessiter de temps de calcul supplémentaire lors de l'inférence.
Préservation de la géométrie : Contrairement aux méthodes qui modifient rigidement les embeddings, l'appariement des moments préserve la structure globale de CLIP tout en permettant l'adaptation spécifique à la tâche.

4. Résultats Expérimentaux

Les auteurs ont évalué leur méthode sur 11 jeux de données divers (classification d'objets, reconnaissance fine, domaines spécifiques) et 7 méthodes de réglage par prompt.

Réduction de l'Erreur d'Étalonnage (ECE) :
- Sur les classes de base, la méthode réduit considérablement l'ECE (par exemple, de 6,35 % à 2,93 % pour CoOp sur l'ensemble des données) tout en maintenant ou en améliorant légèrement la précision.
- Sur les classes nouvelles, la méthode surpasse nettement les techniques post-hoc (comme DAC ou ZS-Norm) et les méthodes de régularisation existantes, réduisant l'ECE moyen de manière significative (ex: de 5,76 % à 4,23 % pour MaPLe).
Robustesse :
- Les performances restent stables avec différents nombres de coups (few-shot : 4, 8, 16, 32).
- La méthode est robuste à différentes initialisations de prompts.
- Elle fonctionne efficacement sur des distributions hors distribution (ImageNet-A, ImageNet-R, etc.).
Comparaison avec d'autres métriques : L'amélioration est confirmée non seulement sur l'ECE, mais aussi sur l'Erreur d'Étalonnage Adaptative (ACE) et l'Erreur d'Étalonnage Maximale (MCE), indiquant une réduction des erreurs de pire cas.
Efficacité : L'ajout des régularisateurs n'augmente pas le temps d'entraînement ni l'utilisation de la mémoire GPU par rapport à la méthode de base (MaPLe).

5. Signification et Impact

Ce travail est significatif car il adresse un obstacle majeur au déploiement réel des VLM dans des environnements critiques (médical, autonome). En garantissant que la confiance du modèle correspond à sa précision réelle, tant pour les classes connues que pour les inconnues, la méthode rend les systèmes VLM plus fiables et sûrs.

La proposition démontre qu'il est possible d'adapter efficacement les modèles fondationnels sans sacrifier leur capacité de généralisation ni leur structure sémantique interne. Cela ouvre la voie à une nouvelle génération d'adaptations de modèles fondationnels "conscientes de l'étalonnage" (calibration-aware), essentielles pour une IA de confiance. Le code est disponible publiquement, favorisant la reproductibilité et l'adoption par la communauté.