PromptGate Client Adaptive Vision Language Gating for Open Set Federated Active Learning

Each language version is independently generated for its own context, not a direct translation.

🏥 Le Problème : L'Hôpital en Pénurie de Temps

Imaginez un hôpital où les médecins (les experts) sont débordés. Ils doivent étiqueter des milliers de photos de patients pour entraîner une intelligence artificielle (IA) à détecter des maladies.

Le défi : Il y a trop de photos, et beaucoup ne sont pas utiles. Certaines sont floues, d'autres sont des rayons X d'un autre type de corps, ou simplement du bruit.
L'erreur classique : Si on demande à l'IA de choisir les photos à étiqueter, elle se trompe souvent. Elle pense que les photos "bizarres" (bruit, artefacts) sont des cas intéressants. Les médecins perdent alors leur précieux temps à étiqueter des déchets au lieu de vraies maladies.

De plus, chaque hôpital a ses propres machines et ses propres habitudes. On ne peut pas simplement envoyer toutes les photos de tous les hôpitaux vers un seul ordinateur central, car cela violerait la confidentialité des patients.

🚪 La Solution : PromptGate, le "Portier Intelligent"

Les auteurs proposent un système appelé PromptGate. Pour faire simple, c'est comme installer un portier très intelligent à l'entrée de la salle de triage de chaque hôpital.

1. Le Portier (Le VLM)

Imaginez que ce portier est un expert en langage et en images (un modèle appelé BiomedCLIP). Il sait à quoi ressemble une maladie, mais il est un peu "rigide" au début. Il ne connaît pas les spécificités de votre hôpital local (par exemple, votre machine fait des photos un peu plus sombres que celle du voisin).

2. L'Adaptation Locale (Les "Prompts")

C'est ici que la magie opère. Au lieu de changer tout le cerveau du portier (ce qui serait trop lourd et risqué), on lui donne de petits mots-clés personnalisables (appelés prompts).

Mots-clés globaux : Des conseils généraux que tous les hôpitaux partagent (ex: "Une photo de peau rouge est souvent un problème").
Mots-clés locaux : Des astuces secrètes que chaque hôpital apprend pour lui-même (ex: "Chez nous, les taches noires sont souvent des artefacts de la machine, pas des maladies").

Ces mots-clés sont comme des post-it que le portier colle sur ses lunettes pour mieux voir ce qui est important ici et maintenant.

3. Le Filtrage (Le Gating)

Avant que les photos n'arrivent aux médecins pour être étiquetées, le portier les examine :

Si la photo ressemble à du bruit ou à quelque chose d'inutile (hors distribution), le portier dit : "Non, passez votre chemin !" (Il la jette).
Si la photo ressemble à une vraie maladie potentielle, il dit : "Oui, c'est intéressant, montrez-la au médecin !"

Grâce à cette adaptation locale, le portier devient de plus en plus précis. Il ne laisse passer que les "vrais" candidats.

🔄 Comment ça marche ensemble ? (L'Apprentissage)

Le système fonctionne comme une boucle vertueuse :

Le Portier filtre : Il sélectionne les meilleures photos.
Le Médecin étiquette : Il ne perd son temps que sur ces photos de haute qualité.
L'Apprentissage : Une fois que le médecin a étiqueté quelques photos, il envoie un petit message au système pour dire : "Tu as eu raison, c'était bien ça".
L'Amélioration : Le portier ajuste ses "post-it" (les mots-clés) pour être encore plus précis la prochaine fois. Il apprend des erreurs sans jamais voir les données des autres hôpitaux.

🌟 Pourquoi c'est génial ? (Les Résultats)

L'article montre que cette méthode est incroyable pour deux raisons principales :

Pureté extrême : Avant, les systèmes laissaient passer environ 50% de "mauvaises" photos. Avec PromptGate, le portier rejette 95% à 98% des photos inutiles. C'est comme si le médecin ne voyait plus que des photos parfaites.
Confidentialité totale : Chaque hôpital garde ses données chez lui. Seuls les "post-it" (les petits mots-clés mathématiques) sont partagés pour s'entraider, mais jamais les photos des patients.

🎯 En Résumé : L'Analogie Finale

Imaginez que vous devez trier des pommes pour faire de la tarte.

Sans PromptGate : Vous jetez toutes les pommes dans un grand panier. Vous prenez une pomme au hasard, mais souvent, c'est une pomme pourrie ou une pierre. Vous gaspillez votre temps à les nettoyer.
Avec PromptGate : Vous avez un robot trieur devant vous.
- Au début, il est un peu bête.
- Mais vous lui donnez des instructions spécifiques à votre ferme (les "prompts").
- Il apprend très vite à reconnaître les pommes pourries de votre région.
- Résultat : Il ne vous donne que les vraies pommes. Vous faites votre tarte beaucoup plus vite, avec moins d'effort, et sans jamais avoir à montrer vos pommes à la ferme voisine.

PromptGate, c'est donc un système qui rend l'IA médicale plus efficace, plus respectueuse de la vie privée et capable de s'adapter à chaque hôpital comme un employé local très attentif.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'application de l'intelligence artificielle médicale dans des institutions aux ressources limitées nécessite des pipelines d'apprentissage efficaces en données tout en respectant la confidentialité des patients. Le Federated Learning (FL) permet une collaboration sans centralisation des données, mais les pools de données cliniques réels sont intrinsèquement ouverts (Open-Set). Ils contiennent du bruit hors distribution (OOD), tel que des artefacts d'imagerie, des modalités incorrectes ou des pathologies non ciblées.

Les stratégies d'Apprentissage Actif (AL) standard, conçues pour des scénarios en ensemble fermé, traitent souvent ce bruit OOD comme des échantillons informatifs. Cela entraîne un gaspillage du budget d'annotation précieux (les experts médicaux annotent des données inutiles). Les méthodes existantes d'AL en ensemble ouvert (OAL) ou d'AL fédéré (FAL) peinent à gérer l'hétérogénéité des données entre différents sites (scanners, protocoles de coloration) et ne tirent pas pleinement parti des priors sémantiques des modèles Vision-Langage (VLM).

2. Méthodologie : PromptGate

Les auteurs proposent PromptGate, un cadre dynamique et adaptatif aux clients pour l'AL fédérée en ensemble ouvert. L'objectif est de purifier les pools non étiquetés avant d'appliquer n'importe quelle stratégie d'acquisition.

Architecture Principale

Le système repose sur un VLM (Vision-Language Model) pré-entraîné et gelé (ici BiomedCLIP), utilisé comme une passerelle de filtrage avant l'étape d'acquisition.

Optimisation de Contexte Spécifique à la Classe (CSC) Fédérée :
- Au lieu d'entraîner tout le modèle, PromptGate optimise des vecteurs de prompts continus (tokens) dans l'espace d'embedding textuel.
- Ces prompts sont décomposés en deux parties pour chaque classe cible (ID) et pour la classe "OOD" :
  - Tokens Globaux ( $p^g_c$ ) : Partagés et agrégés via FedAvg pour capturer un prior sémantique commun.
  - Tokens Locaux ( $p^k_c$ ) : Spécifiques à chaque client (hôpital), restant privés pour s'adapter aux hétérogénéités locales (artefacts spécifiques, distributions de données).
- L'embedding de texte final est la concaténation $[p^g_c; p^k_c]$ .
Mécanisme de Filtrage (Gating) :
- Pour chaque image non étiquetée, le VLM calcule la similarité cosinus avec les embeddings de texte des classes ID et OOD.
- Une distribution de probabilité pseudo-étiquetée est générée via un softmax à température.
- Seuls les échantillons dont la classe prédite la plus probable est une classe ID (In-Distribution) sont conservés dans le pool candidat. Les échantillons OOD sont rejetés.
Boucle d'Apprentissage :
- Une stratégie d'AL (ex: Entropy, Random) sélectionne des requêtes uniquement dans le pool filtré (hautement pur).
- Une fois les vraies étiquettes obtenues (Oracle), les tokens de prompts (globaux et locaux) sont mis à jour par descente de gradient (style CoOp).
- Seuls les mises à jour des tokens globaux sont envoyées au serveur pour l'agrégation, préservant la confidentialité des tokens locaux.

3. Contributions Clés

Premier module VLM à prompts apprenables pour l'OS-FAL : Introduction de PromptGate, qui décompose les prompts en composants globaux et locaux pour gérer les comportements OOD hétérogènes.
Mécanisme de filtrage plug-and-play : Le module agit comme une pré-sélection universelle, améliorant n'importe quelle stratégie d'acquisition en aval (même celles conçues pour des ensembles fermés) en éliminant le bruit OOD.
Adaptation dynamique : Contrairement aux approches statiques, les prompts s'affinent progressivement à mesure que de nouvelles annotations arrivent, affinant la frontière ID/OOD.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux benchmarks médicaux fédérés : FedISIC (lésions cutanées) et FedEMBED (densité mammaire), avec des taux de bruit OOD simulés ou réels.

Pureté du Pool (ID Purity) :
- Les méthodes de base (Coldstart, sans filtrage) obtiennent une pureté moyenne d'environ 60% sur FedISIC.
- Les VLM statiques (prompts fixes) plafonnent à ~76%.
- PromptGate maintient une pureté >95% (atteignant jusqu'à 98,9% avec la stratégie Entropy sur FedISIC), même avec des taux de bruit élevés.
Efficacité de l'Annotation (BMA - Balanced Multiclass Accuracy) :
- PromptGate améliore systématiquement la BMA de 1 à 3 points par rapport aux bases, car les modèles apprennent sur des données plus pertinentes.
- Sur FedISIC, la stratégie "Mixed" (globale + locale) offre les meilleurs résultats globaux.
- Sur FedEMBED, l'adaptation purement Locale s'avère supérieure pour le filtrage, confirmant l'importance de l'adaptation aux artefacts spécifiques au site.
Comparaison avec l'État de l'Art :
- PromptGate surpasse OpenPath (approche centralisée statique) et les méthodes FAL classiques.
- Il permet aux stratégies d'AL en ensemble fermé de performer aussi bien, voire mieux, que les méthodes OAL complexes, en transformant efficacement le problème ouvert en problème fermé grâce au filtrage.

5. Signification et Conclusion

PromptGate résout le paradoxe de l'AL en environnement médical réel où les données sont bruyantes et fragmentées.

Efficacité : Il démontre qu'un petit budget d'annotation dédié à l'initialisation et à l'adaptation des prompts (few-shot) est bien plus efficace que l'expansion statique des descriptions OOD.
Confidentialité et Déploiement : Avec seulement ~12 000 paramètres apprenables par client et un backbone gelé, la méthode est légère, respectueuse de la vie privée et facilement déployable dans des réseaux hospitaliers hétérogènes sans nécessiter de curation centralisée des données.
Rôle du VLM : L'étude confirme que le VLM doit agir comme un gardien (gatekeeper) robuste pour filtrer le bruit OOD, plutôt que comme un classificateur final, permettant ainsi aux modèles de tâche spécifiques de se concentrer sur l'apprentissage des classes cibles.

En résumé, PromptGate offre une solution robuste et adaptable pour rendre l'apprentissage actif fédéré viable dans des scénarios cliniques réels, en éliminant le gaspillage de ressources d'annotation sur des données non pertinentes.