LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

Each language version is independently generated for its own context, not a direct translation.

🏥 Le Problème : Le Médecin "Confiant mais Imprécis"

Imaginez un super-médecin robot (appelé VLM ou Vision-Language Model) qui a lu des millions de livres médicaux et vu des milliards de photos de rayons X. Il est très intelligent et peut diagnostiquer des maladies sans jamais avoir été formé spécifiquement sur les patients d'un nouvel hôpital. C'est ce qu'on appelle le "zéro-shot" (il apprend sur le tas).

Mais il y a un gros problème : il a tendance à être trop confiant ou trop vague.

Parfois, il dit : "C'est une tumeur" (mais il pourrait être faux).
Parfois, pour être sûr, il donne une liste de 10 maladies possibles : "Ça pourrait être A, B, C... jusqu'à J". C'est trop large pour aider le vrai médecin !

En médecine, on ne veut pas seulement de la précision, on veut de la sécurité. On veut que le robot dise : "Je suis sûr à 95 % que c'est l'une de ces 2 options". C'est ce qu'on appelle la prédiction conforme : garantir que la bonne réponse est dans la liste, sans que la liste soit trop longue.

⚠️ Le Dilemme : Adapter sans tricher

Pour améliorer ce robot sur un nouvel hôpital, on pourrait lui montrer quelques exemples de patients locaux (les données d'étalonnage). Mais si on modifie le robot avec ces exemples, on risque de "casser" sa garantie de sécurité.

L'analogie du juge : Imaginez un juge qui doit rendre un verdict. S'il regarde les preuves du procès pendant qu'il écrit ses règles de jugement, il triche. Il doit écrire ses règles avant de voir les preuves, pour rester impartial.
Dans l'IA, si on utilise les mêmes données pour "apprendre" et pour "vérifier", la garantie de sécurité disparaît. C'est le piège que la plupart des méthodes actuelles tombent.

💡 La Solution : LATA (Le "Groupe de Soutien" Intelligent)

Les auteurs proposent une méthode appelée LATA. Voici comment ça marche, avec une analogie simple :

1. Le "Groupe de Voisins" (L'approche Laplacienne)

Au lieu de modifier le cerveau du robot (ce qui est risqué et coûteux), LATA regarde simplement les patients qui se ressemblent.

L'image : Imaginez que vous avez un groupe de patients. Certains ont des symptômes très similaires (comme des voisins qui habitent dans la même rue).
L'action : Si le robot est hésitant sur un patient, LATA regarde ce que ses "voisins" (les patients aux images similaires) ont comme diagnostic. Il lisse la réponse.
Le résultat : Si le robot hésitait entre "Maladie A" et "Maladie B", et que tous les voisins ont "Maladie A", LATA dit : "Ah, c'est probablement A". Cela rend la prédiction plus nette sans toucher au cerveau du robot.

2. Le "Détecteur de Difficulté" (ViLU)

Le robot a parfois des cas très difficiles (des images floues ou bizarres).

L'analogie : Imaginez un assistant qui chuchote au robot : "Hé, cette image est floue, fais attention !".
L'action : LATA utilise un module spécial qui détecte quand une image est "difficile". Si c'est difficile, il élargit un peu la liste des possibilités pour être sûr de ne pas rater la bonne réponse. Si c'est facile, il garde la liste courte.

3. La Garantie "Sans Triche" (Transductif)

C'est la partie la plus importante. LATA applique exactement la même logique de "voisinage" et de "détecteur" à la fois sur les patients d'entraînement (pour régler les règles) et sur les nouveaux patients.

Pourquoi c'est génial ? Comme on traite tout le monde de la même manière, on ne triche pas. On garde la garantie mathématique que le robot ne se trompera pas plus de 5 % du temps, même si on ne l'a pas réentraîné.

🚀 Les Résultats en Bref

Grâce à LATA, les chercheurs ont testé leur méthode sur trois types de robots médicaux (pour l'œil, la peau et les poumons) et neuf tâches différentes.

Moins de listes inutiles : Au lieu de donner 5 ou 6 options possibles, le robot en donne souvent 2 ou 3. C'est beaucoup plus utile pour le médecin.
Plus d'équité : Avant, le robot était très précis pour les maladies courantes mais très vague pour les maladies rares. Avec LATA, il est plus équilibré.
Rapide et léger : Ça ne demande pas de super-ordinateur. C'est comme ajouter un petit filtre intelligent sur une photo existante, sans avoir à repeindre toute la photo.

🎯 En Résumé

LATA, c'est comme donner un guide de voyage à un robot médecin qui vient dans un nouveau pays.

Le robot connaît déjà la langue (il est pré-entraîné).
Le guide (LATA) lui dit : "Regarde, tes voisins ici font souvent telle chose, donc fais pareil" et "Attention, cette rue est dangereuse, sois prudent".
Le robot reste le même, mais il devient plus précis, plus sûr, et ses conseils sont beaucoup plus courts et utiles, le tout sans jamais avoir besoin de réapprendre ses bases.

C'est une méthode sans étiquettes (on n'a pas besoin de dire au robot "c'est une tumeur" pour chaque image), sans entraînement (pas de modification des poids du robot), et garantie (on sait qu'il ne se trompera pas trop souvent).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles Vision-Language (VLM) médicaux, tels que les variantes spécialisées de CLIP, se sont révélés être d'excellents reconnaisseurs "zero-shot" pour l'imagerie médicale. Cependant, leur fiabilité dans des environnements réels est compromise par deux défis majeurs :

Décalage de domaine (Domain Shift) : Les performances chutent lorsque la distribution des données de test diffère de celle de l'entraînement (pré-entraînement généraliste vs données médicales spécifiques).
Gestion de l'incertitude : Dans les applications critiques (santé), il ne suffit pas d'être précis ; il faut pouvoir quantifier l'incertitude avec des garanties formelles.

La Prédiction Conformale (Conformal Prediction - CP), et spécifiquement la Prédiction Conformale Split (SCP), offre des garanties de couverture finie (le vrai label est inclus dans l'ensemble de prédiction avec une probabilité $1-\alpha$ ). Néanmoins, l'application directe de la SCP aux VLMs médicaux présente des limites :

Efficacité faible : Les ensembles de prédiction sont souvent trop grands (peu informatifs).
Déséquilibre : La couverture est inégale selon les classes (écart de couverture conditionnelle par classe, ou CCV élevé), particulièrement dans des régimes à peu d'exemples (few-shot) et déséquilibrés.
Le dilemme de l'adaptation : Tenter d'adapter le modèle aux données de calibration (en utilisant les labels) pour améliorer la précision brise l'hypothèse d'échangeabilité (exchangeability) requise par la SCP, invalidant ainsi les garanties de couverture.

2. Méthodologie : LATA

Les auteurs proposent LATA (Laplacian-Assisted Transductive Adaptation), une méthode de raffinement sans entraînement (training-free) et sans étiquettes (label-free) au moment de l'adaptation, conçue pour préserver les garanties de la SCP tout en améliorant l'efficacité.

A. Raffinement Transductif par Laplacien

LATA opère sur un pool joint contenant à la fois les données de calibration et de test (non étiquetées).

Construction du graphe : Un graphe $k$ -plus proches voisins ( $k$ NN) est construit entre les images en utilisant leurs embeddings visuels (frozen).
Optimisation : LATA affine les probabilités zero-shot initiales ( $q(x)$ ) en résolvant un problème d'optimisation régularisé. L'objectif est de minimiser la divergence KL par rapport aux prédictions initiales tout en assurant une lissage (smoothness) des prédictions sur le graphe d'images.
Résolution : Ce problème est résolu de manière déterministe via une procédure CCCP (Concave-Convex Procedure) ou mise à jour de champ moyen, sans rétropropagation (backprop) ni mise à jour des poids du VLM.
Préservation de la validité : Comme la transformation est déterministe et appliquée de manière identique aux données de calibration et de test, l'hypothèse d'échangeabilité est préservée, garantissant la validité de la SCP.

B. Score Conformal "Failure-Aware"

Pour améliorer l'efficacité et l'équilibre des classes, les auteurs introduisent un nouveau score de non-conformité qui intègre des signaux multimodaux via le module ViLU (Vision-Language Uncertainty) :

Signal de difficulté ( $u(x)$ ) : Estime la probabilité d'échec du modèle pour une image donnée.
Signal d'attention ( $\alpha(x)$ ) : Indique la plausibilité des labels basée sur l'attention image-texte.
Formule du score : Le score de base (LAC, APS ou RAPS) est pondéré : il est augmenté pour les entrées difficiles (pour protéger la couverture) et réduit pour les labels plausibles (pour réduire la taille de l'ensemble).
$S^*(x, y) = S_{base}(\tilde{z}(x), y) \cdot (1 + \lambda u(x)) - \eta \alpha_y(x)$

C. Option "Prior" (LATA-LI)

Une variante optionnelle permet d'utiliser une fois les marges des labels de calibration pour introduire un biais de classe (prior), permettant d'ajuster finement le compromis entre couverture et efficacité, tout en restant valide.

3. Contributions Clés

LATA (Raffinement Transductif) : Une méthode de raffinement des probabilités zero-shot basée sur un graphe Laplacien, entièrement sans entraînement et sans étiquettes, qui affine les prédictions tout en préservant strictement les garanties de couverture conformale.
Score Conformal Sensible aux Échecs : Intégration du module ViLU pour repondérer les scores de non-conformité, permettant de réduire la taille des ensembles de prédiction et d'améliorer l'équilibre inter-classes (CCV) sans sacrifier la couverture.
Efficacité Computationnelle : LATA est "boîte noire", ne nécessite pas de rétropropagation et est extrêmement léger en calcul (quelques millisecondes par image), contrairement aux méthodes d'adaptation transductive existantes qui nécessitent des refits coûteux.

4. Résultats Expérimentaux

Les expériences ont été menées sur 3 VLMs médicaux (CONCH pour l'histologie, FLAIR pour l'ophtalmologie, CONVIRT pour les rayons X) et 9 tâches de classification (incluant des scénarios déséquilibrés et à décalage de domaine).

Efficacité (Taille des ensembles) : LATA réduit significativement la taille moyenne des ensembles de prédiction (de 7 à 12 % par rapport aux meilleures méthodes sans étiquettes comme SCA-T) tout en maintenant la couverture cible.
Équité (CCV) : LATA réduit considérablement l'écart de couverture conditionnelle par classe (CCV), offrant une fiabilité plus uniforme entre les différentes pathologies, même dans des régimes few-shot.
Comparaison avec les méthodes étiquetées : Bien que LATA soit sans étiquettes au moment de l'adaptation, il approche les performances des méthodes utilisant les labels (comme FCA), tout en évitant la violation d'échangeabilité qui conduit souvent les méthodes d'adaptation standard (Adapt+SCP) à sous-couvrir (manquer le vrai label).
Coût computationnel : LATA est nettement plus rapide et moins gourmand en mémoire que les méthodes concurrentes (ex: SCA-T, FCA), avec un temps d'inférence supplémentaire négligeable (~0.05s/image).

5. Signification et Impact

Ce travail apporte une solution cruciale à l'adoption des VLMs en milieu médical :

Fiabilité Garantée : Il permet d'utiliser des modèles foundation puissants tout en assurant des garanties statistiques rigoureuses sur l'incertitude, essentielles pour la prise de décision clinique.
Adaptation Pragmatique : En étant "sans étiquettes" et "sans entraînement", LATA contourne les problèmes de confidentialité des données et de coût de calcul, rendant l'adaptation aux nouveaux hôpitaux ou modalités beaucoup plus simple.
Équilibre Performance/Validité : Il démontre qu'il est possible d'améliorer l'efficacité des prédictions conformales (réduire les ensembles flous) sans compromettre la validité théorique, comblant ainsi le fossé entre les approches purement théoriques et les besoins pratiques de la médecine de précision.

En résumé, LATA établit un nouvel état de l'art pour l'adaptation fiable et efficace des modèles Vision-Language en médecine, offrant des prédictions plus précises, équilibrées et garanties sans nécessiter de réentraînement coûteux.