Are foundation models for computer vision good conformal predictors?

Each language version is independently generated for its own context, not a direct translation.

🎯 Le Problème : Le "Super-Héros" un peu trop confiant

Imaginez que vous avez un Super-Héros de la vision par ordinateur (ce qu'on appelle un "modèle fondation"). C'est un modèle entraîné sur des milliards d'images. Il est capable de reconnaître des chats, des voitures ou des maladies sur des radiographies avec une précision incroyable.

Mais il y a un problème : ce Super-Héros est trop confiant.

S'il regarde une image floue et dit "C'est un chien !", il a 99 % de chances d'avoir tort, mais il vous le dira avec un sourire assuré.
Dans des situations critiques (comme la médecine ou la sécurité), cette confiance aveugle est dangereuse. On a besoin de savoir quand il ne sait pas.

🛡️ La Solution : Le "Filet de Sécurité" (Conformal Prediction)

Les chercheurs ont testé une méthode appelée Prédiction Conformelle.
Imaginez que ce n'est plus un seul coup de filet, mais un filet de sécurité que le Super-Héros doit lancer.

Au lieu de dire "C'est un chien", il lance un filet qui contient plusieurs possibilités : "C'est probablement un chien, ou peut-être un loup, ou un renard".
La règle magique : Ce filet est mathématiquement garanti pour attraper la bonne réponse 90 % du temps (par exemple). Si le filet est vide ou trop petit, c'est que le modèle est en danger.

La question de l'article est simple : Est-ce que nos Super-Héros modernes (les modèles fondation) sont de bons partenaires pour ce filet de sécurité ?

🔍 Ce que les chercheurs ont découvert (Les 4 Grandes Leçons)

1. Les modèles modernes sont d'excellents partenaires 🤝

Les chercheurs ont testé 17 modèles différents (comme DINO, CLIP, etc.).

Résultat : Les modèles modernes, surtout ceux qui utilisent une architecture appelée "Transformers" (comme des cerveaux très structurés), fonctionnent mieux avec le filet de sécurité que les anciens modèles.
L'analogie : C'est comme si les nouveaux modèles avaient une meilleure intuition. Ils savent mieux quand ils sont incertains, ce qui permet de faire un filet plus petit (plus précis) tout en restant sûr de ne pas rater la proie.

2. Attention aux "correcteurs" ! (Le paradoxe de la calibration) 🧐

En IA, on utilise souvent une technique appelée "calibration" pour essayer de rendre les prédictions plus honnêtes (si le modèle dit 80 %, il a 80 % de chances d'avoir raison).

La surprise : Quand on "calibre" ces modèles avant de leur donner le filet de sécurité, le filet devient énorme et inutile.
L'analogie : Imaginez que vous demandez à un guide touristique de vous dire où aller. Si vous le forcez à être trop prudent ("Je ne suis pas sûr à 100 %"), il vous donnera une liste de 50 villes possibles au lieu de 2. Le filet de sécurité devient si gros qu'il ne sert plus à rien pour prendre une décision rapide.
Conclusion : Parfois, un modèle un peu "brut" mais honnête sur ses incertitudes est meilleur pour ce système de filet qu'un modèle "lissé" artificiellement.

3. L'adaptation rapide (Few-Shot) est un atout 🚀

On demande souvent à ces modèles d'apprendre de nouvelles tâches avec très peu d'exemples (comme apprendre à reconnaître une nouvelle race de chien avec seulement 10 photos).

Résultat : Même avec très peu d'entraînement, ces modèles s'adaptent très bien au filet de sécurité. Ils font des prédictions plus précises que s'ils essayaient de tout deviner sans aucune aide (le "zéro-shot").
L'analogie : C'est comme donner un manuel de 10 pages à un expert. Il s'en sort mieux que s'il devait tout deviner de sa tête, et son filet de sécurité reste petit et efficace.

4. Le filet "Adaptatif" (APS) est le champion 🏆

Il existe plusieurs façons de construire ce filet. Les chercheurs ont comparé trois méthodes.

Le gagnant : Une méthode appelée APS (Ensembles de Prédictions Adaptatifs).
Pourquoi ? Quand les conditions changent (par exemple, on passe d'une photo de jour à une photo de nuit, ou d'une photo réelle à un dessin), les autres méthodes échouent ou font des filets énormes. APS, lui, s'adapte : il élargit le filet juste ce qu'il faut pour rester sûr, sans devenir démesuré.
L'analogie : C'est comme un filet de pêche intelligent qui s'étire automatiquement quand le poisson est gros ou quand l'eau est agitée, pour ne jamais le laisser échapper, tout en restant maniable.

💡 En résumé

Cette étude nous dit que :

Les nouveaux modèles d'IA sont très bien faits pour travailler avec des systèmes de sécurité mathématique.
Il faut faire attention à ne pas trop les "corriger" (calibrer) avant de les utiliser, car cela peut rendre leurs prédictions trop vagues.
La méthode APS est la plus robuste pour garantir que l'IA ne se trompe pas, même dans des situations difficiles ou imprévues.

C'est une excellente nouvelle pour l'avenir : cela signifie qu'on peut commencer à utiliser ces Super-Héros de l'IA dans des domaines sensibles (hôpitaux, voitures autonomes) avec un filet de sécurité fiable qui nous protège contre leurs erreurs.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'essor des modèles de fondation (Foundation Models) en vision par ordinateur, tels que DINOv2 et CLIP, a révolutionné la performance sur de nombreuses tâches grâce à l'apprentissage auto-supervisé et contrastif. Cependant, leur déploiement dans des applications à haut risque (santé, sécurité) nécessite une quantification fiable de l'incertitude.

Bien que la calibration (ajustement des probabilités de sortie pour refléter la vraisemblance réelle) soit une méthode courante pour gérer l'incertitude, elle manque souvent de garanties théoriques strictes. À l'inverse, la Prédiction Conforme (Conformal Prediction - CP) offre des garanties mathématiques de couverture marginale (la probabilité que la vraie classe soit incluse dans l'ensemble de prédiction est garantie à $1-\alpha$ ).

Le problème central de cette étude est de déterminer si les modèles de fondation modernes sont adaptés aux procédures de prédiction conforme et comment des facteurs pratiques courants (décalage de distribution, calibration des confiances, adaptation few-shot) affectent leur efficacité et leurs garanties de couverture.

2. Méthodologie

Les auteurs ont mené une analyse empirique extensive couvrant :

Modèles : 17 modèles de fondation variés, incluant des architectures basées sur des Transformers de vision (ViT) comme DINO, DINOv2, CLIP, MetaCLIP, et des architectures CNN comme VICReg.
Données : 17 benchmarks visuels populaires (CIFAR-10, CIFAR-100, ImageNet et ses variantes avec décalage de distribution comme ImageNet-A, -R, -Sketch, -V2) ainsi que 10 tâches de classification fine pour l'adaptation few-shot.
Méthodes de Prédiction Conforme (CP) : Trois approches principales ont été comparées :
1. LAC (Least Ambiguous Classifier) : Utilise directement les probabilités softmax comme score de non-conformité.
2. APS (Adaptive Prediction Sets) : Accumule les probabilités classées par ordre décroissant pour former l'ensemble.
3. RAPS (Regularized Adaptive Prediction Sets) : Ajoute une régularisation à APS pour pénaliser les ensembles trop larges.
Scénarios d'évaluation :
- Réglage standard : Calibration sur des données en distribution (ID).
- Décalage de distribution (OOD) : Test sur des données hors distribution (ImageNet-A, etc.).
- Calibration des confiances : Application du Temperature Scaling (TS) avant la procédure CP.
- Adaptation Few-Shot : Comparaison entre les prédictions zero-shot et les modèles CLIP adaptés via Prompt Learning ou Adapters.

3. Contributions et Résultats Clés

A. Performance des Modèles de Fondation vs Modèles Traditionnels

Les modèles de fondation (notamment ceux intégrant des Vision Transformers) produisent des ensembles de prédiction plus petits et une meilleure couverture conditionnelle par classe que les modèles supervisés traditionnels (comme un ViT entraîné uniquement sur ImageNet).
Les modèles basés sur CNN (ex: VICReg) semblent plus sensibles aux décalages de distribution, montrant une dégradation plus importante des métriques CP.

B. Comparaison des Méthodes CP

APS (Adaptive Prediction Sets) s'avère être la méthode la plus robuste, en particulier pour garantir la couverture marginale et conditionnelle dans des scénarios difficiles (décalage de distribution). Elle maintient les garanties théoriques même lorsque la complexité du domaine augmente, au prix d'une augmentation de la taille des ensembles.
RAPS offre de meilleurs ensembles (plus petits) en conditions idéales mais souffre d'une perte de couverture conditionnelle sous décalage de distribution, car sa régularisation empêche l'expansion nécessaire des ensembles pour couvrir les classes difficiles.
LAC présente une variabilité élevée dans la couverture conditionnelle.

C. Impact de la Calibration (Temperature Scaling)

Une découverte contre-intuitive : Calibrer les modèles (via Temperature Scaling) dégrade l'efficacité des ensembles conformes.
La calibration lisse les distributions de probabilité, réduisant la confiance des prédictions dominantes. Pour maintenir la garantie de couverture ( $1-\alpha$ ), les méthodes CP (surtout APS) doivent inclure plus de classes, augmentant ainsi la taille moyenne des ensembles (réduction de l'efficacité).
Bien que la calibration améliore légèrement la couverture conditionnelle, le compromis sur la taille de l'ensemble est significatif.

D. Adaptation Few-Shot des VLM (Vision-Language Models)

L'adaptation des modèles CLIP (via Prompt Learning ou Adapters) sur des tâches spécifiques améliore les résultats par rapport au zero-shot en données en distribution (ID) : tailles d'ensembles plus petites et écarts de couverture réduits.
Cependant, en données hors distribution (OOD), l'adaptation n'apporte pas toujours d'amélioration significative par rapport au zero-shot, et peut même parfois dégrader les estimations de confiance.

4. Signification et Implications

Cette étude fournit des directives cruciales pour le déploiement sécurisé des modèles de fondation :

Choix de la méthode CP : Pour des applications critiques où la garantie de couverture est primordiale (ex: diagnostic médical), APS est recommandé malgré des ensembles potentiellement plus larges, car il résiste mieux aux décalages de distribution et aux modèles moins performants. RAPS est préférable si l'efficacité (taille de l'ensemble) est la priorité absolue dans des environnements stables.
Attention à la calibration : L'ajout d'une étape de calibration classique (comme le Temperature Scaling) avant la prédiction conforme n'est pas toujours bénéfique. Elle peut réduire l'utilité pratique du système en élargissant inutilement les ensembles de prédiction.
Architecture des modèles : Les architectures basées sur Transformers (ViT) semblent intrinsèquement mieux adaptées à la prédiction conforme que les CNN, offrant de meilleures garanties de couverture conditionnelle.
Adaptation : L'adaptation few-shot est une stratégie efficace pour réduire l'incertitude (tailles d'ensembles) sur des tâches spécifiques en données en distribution.

En conclusion, les modèles de fondation sont d'excellents candidats pour la prédiction conforme, mais leur comportement sous contrainte de couverture nécessite un choix judicieux de la méthode CP (privilégier APS pour la robustesse) et une prudence quant à l'utilisation de techniques de calibration standard qui peuvent nuire à l'efficacité des ensembles.