Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

Each language version is independently generated for its own context, not a direct translation.

Le Problème : L'Apprenti Trop Confiant

Imaginez que vous avez un médecin apprenti (c'est le modèle d'intelligence artificielle, ou VLM) qui a lu des millions de livres médicaux sur Internet. Il est très doué pour reconnaître des maladies en regardant des images (comme des IRM ou des radios) sans jamais avoir vu un seul patient réel. C'est ce qu'on appelle le "zéro-shot".

Mais il y a un gros problème : il est trop confiant.
Même quand il ne sait pas vraiment, il vous dit : "Je suis sûr à 100 % que c'est une tumeur !" alors qu'il se trompe. C'est comme un élève qui devine la réponse d'un examen en criant très fort, même s'il ne connaît pas la leçon.

Dans la vraie vie, les médecins experts (les radiologues) sont occupés et ne peuvent pas annoter des milliers d'images. On utilise donc l'Apprentissage Actif : on demande à l'IA de choisir les images les plus intéressantes pour que l'expert les vérifie.

Le souci : Comme l'IA est trop confiante, elle choisit des images qu'elle pense déjà connaître (et qui sont faciles) au lieu de celles où elle a vraiment besoin d'aide. On gaspille le temps précieux des experts.

La Solution : SaE (La Similarité comme Preuve)

Les chercheurs proposent une nouvelle méthode appelée SaE (Similarity-as-Evidence). Voici comment ça marche, avec une analogie simple :

1. Au lieu de donner un "Score", on donne des "Preuves"

Normalement, l'IA dit : "J'ai 90% de chances que ce soit une tumeur". C'est un score fixe.
Avec SaE, on change la logique. On demande à l'IA : "Combien de preuves as-tu pour cette réponse ?"

Imaginez que l'IA est un détective.

Le modèle classique dit : "Je suis sûr, c'est le coupable !" (Même s'il n'a aucun indice).
Le modèle SaE dit : "J'ai trouvé 3 indices qui pointent vers le coupable, mais j'ai aussi 2 indices qui disent que ce n'est pas lui. Et je n'ai pas vu le visage du coupable."

2. Les deux types d'incertitude (Le cœur du système)

Le système SaE distingue deux façons d'être incertain, ce qui est crucial pour un médecin :

Le "Vide" (Vacuity) = "Je n'ai jamais vu ça."
- Analogie : C'est comme si vous voyiez un animal étrange dans la forêt et que votre livre d'animaux ne contient aucune page sur lui. Vous ne savez pas ce que c'est.
- Action : Le système dit : "Hé, on n'a pas assez de preuves ! On doit montrer cette image à un expert pour apprendre ce que c'est." C'est utile pour découvrir des maladies rares.
Le "Bruit" (Dissonance) = "Je suis perdu entre deux options."
- Analogie : Vous voyez un animal qui ressemble à la fois à un loup et à un chien. Les indices sont contradictoires.
- Action : Le système dit : "J'ai beaucoup de preuves, mais elles se contredisent. L'expert doit trancher pour que je sache faire la différence." C'est utile pour affiner les diagnostics difficiles.

3. La Stratégie Intelligente (Le Plan de Jeu)

Au lieu de demander des images au hasard, SaE joue en deux temps :

Au début (Phase d'exploration) : Il cherche les cas "vides" (les maladies rares ou inconnues). Il dit : "Montrez-moi ce que je ne connais pas encore !"
À la fin (Phase de raffinement) : Il cherche les cas "bruyants" (les cas ambigus). Il dit : "Maintenant que je connais les bases, aidez-moi à distinguer les cas difficiles."

Pourquoi c'est génial ?

Moins de gaspillage : On ne demande pas aux experts de vérifier des images que l'IA connaît déjà par cœur.
Plus de confiance : L'IA ne crie plus "Je suis sûr !" quand elle ne l'est pas. Elle dit honnêtement "Je manque de preuves" ou "Je suis confus".
Interprétable : Un médecin peut comprendre pourquoi l'IA a choisi une image : "Ah, elle a choisi cette IRM parce qu'elle ne connaît pas ce type de tumeur" ou "Parce qu'elle hésite entre deux maladies".

En résumé

Ce papier propose de transformer un IA arrogante (qui devine tout) en un IA humble et honnête (qui compte ses preuves). En faisant cela, elle apprend beaucoup plus vite avec moins d'aide humaine, ce qui est une aubaine pour la médecine où le temps des experts est précieux.

C'est comme passer d'un élève qui crie n'importe quoi pour avoir la bonne réponse, à un élève qui dit : "Je ne sais pas, montrez-moi un exemple" ou "Je suis perdu entre A et B, expliquez-moi la différence".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'apprentissage actif (Active Learning - AL) vise à réduire les coûts d'annotation en sélectionnant les échantillons les plus informatifs. Cependant, dans le domaine médical, il souffre d'un problème de démarrage à froid (cold-start) : avec très peu de données étiquetées initialement, les modèles traditionnels produisent des prédictions peu fiables.

Les Modèles Vision-Langage (VLMs) offrent une solution potentielle via des prédictions "zero-shot" basées sur l'alignement texte-image. Néanmoins, une limitation majeure persiste :

Surconfiance (Overconfidence) : Les VLMs convertissent les similarités cosinus entre images et textes en probabilités via un softmax à température. Cette opération traite la proximité géométrique comme une certitude, ignorant l'incertitude inhérente.
Conséquences : Le modèle sélectionne des échantillons qu'il croit déjà maîtriser (mais qui sont souvent incorrects) plutôt que des cas informatifs, gaspillant le budget d'annotation.
Manque d'interprétabilité : Les méthodes d'AL existantes utilisent des scores d'incertitude scalaires (comme l'entropie) qui ne distinguent pas la cause de l'incertitude (manque de connaissances vs conflit entre hypothèses), ce qui est crucial pour les cliniciens.

2. Méthodologie : Le cadre SaE (Similarity-as-Evidence)

Les auteurs proposent SaE, un cadre qui transforme les similarités brutes des VLMs en preuves évidentielles calibrées en utilisant la logique subjective (Subjective Logic).

A. Composants Clés

Prompts enrichis par PubMed : Pour combler le fossé sémantique entre les connaissances générales des VLMs et le vocabulaire médical spécifique, les prompts de classes sont augmentés avec des descriptions extraites de PubMed (morphologie, caractéristiques de signal, localisation).
Similarity Evidence Head (SEH) : C'est le cœur de l'innovation. Au lieu d'utiliser un softmax rigide, le SEH est un petit réseau neuronal (MLP) qui prend le vecteur de similarité du VLM et le mappe vers les paramètres d'une distribution de Dirichlet.
- Il prédit une force de preuve ( $\lambda$ ) positive.
- Il utilise une fonction de perte double objectif :
  - Aligner l'inverse de la preuve avec la difficulté de classification empirique (perte de classification).
  - Aligner la preuve avec l'entropie intrinsèque du VLM (pour conserver la connaissance pré-entraînée tout en corrigeant la surconfiance).
Décomposition de l'incertitude : La distribution de Dirichlet permet de décomposer l'incertitude en deux facteurs cliniquement interprétables :
- Vacuité (Vacuity) : Mesure le manque de preuves (ex: une maladie rare non vue auparavant). Elle indique un "vide de connaissances".
- Dissonance (Dissonance) : Mesure le conflit entre les preuves pour différentes classes (ex: une image présentant des symptômes à la fois de pneumonie et d'œdème pulmonaire).

B. Stratégie d'Acquisition à Double Facteur

SaE introduit une stratégie dynamique pour sélectionner les échantillons à annoter au fil des rounds d'apprentissage :

Rounds précoces (Exploration) : Priorité aux échantillons à haute vacuité. Cela permet d'explorer rapidement les phénotypes sous-représentés ou rares pour couvrir l'espace des données.
Rounds tardifs (Raffinement) : Priorité aux échantillons à haute dissonance. Cela permet d'affiner les frontières de décision ambiguës une fois que le modèle a une base de connaissances solide.

3. Contributions Principales

Premier cadre de calibration pour VLMs en AL médical : SaE est la première approche à mapper les similarités texte-image brutes vers des preuves de Dirichlet, résolvant le problème de la surconfiance des VLMs.
Stratégie d'acquisition adaptative et interprétable : La décomposition de l'incertitude en vacuité et dissonance fournit des justifications cliniques claires pour le choix des échantillons (ex: "ce cas est sélectionné car le modèle manque de connaissances sur ce type de lésion" vs "ce cas est ambigu").
Performance supérieure : Validation sur dix ensembles de données médicaux diversifiés, démontrant une efficacité supérieure en termes de précision et de calibration.

4. Résultats Expérimentaux

Les expériences ont été menées sur 10 ensembles de données publics (couvrant la peau, le cerveau, les poumons, les yeux, etc.) avec un budget d'étiquetage de 20%.

Précision (Accuracy) : SaE atteint une précision macro-moyenne de 82,57%, surpassant l'état de l'art (SOTA).
- Comparé à la meilleure base de référence (MedCoOp + BADGE : 77,75%), SaE gagne +4,82 points.
- Des gains significatifs sont observés sur des datasets difficiles comme RETINA (+8,34%) et BUSI (+6,27%).
Calibration : Sur le dataset BTMRI (tumeurs cérébrales), SaE démontre une calibration exceptionnelle avec un NLL (Negative Log-Likelihood) de 0,425 et un ECE (Expected Calibration Error) de 0,021, contre des scores nettement pires pour les méthodes baselines (PCB, BADGE) qui restent surconfiantes.
Efficacité du démarrage à froid : SaE converge plus rapidement et plus stablement dès les premiers rounds, évitant l'instabilité initiale observée chez les autres méthodes.
Interprétabilité : Les cartes d'activation (Grad-CAM) montrent que SaE se concentre sur les régions pathologiques pertinentes, tandis que les méthodes surconfiantes se dispersent souvent sur le bruit de fond.

5. Signification et Impact

Ce travail est significatif car il adresse deux goulots d'étranglement majeurs du déploiement de l'IA médicale :

Fiabilité Clinique : En transformant les scores de similarité en preuves calibrées, SaE permet aux cliniciens de comprendre pourquoi un cas est sélectionné (manque de données vs ambiguïté), augmentant ainsi la confiance dans le système.
Efficacité des Coûts : En optimisant le budget d'annotation, SaE réduit le temps et l'argent nécessaires pour entraîner des modèles performants, rendant l'AL plus viable pour des applications réelles où l'expertise médicale est rare et coûteuse.

En résumé, SaE propose une approche rigoureuse pour transformer les VLMs, souvent trop confiants, en outils d'aide à la décision robustes et interprétables pour l'apprentissage actif médical.