RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un médecin qui doit repérer des polypes (de petits excroissances qui peuvent devenir dangereuses) sur des images de l'intérieur du côlon. Le problème ? Vous n'avez pas le temps d'annoter des milliers d'images pour entraîner un ordinateur. Vous avez juste une seule image d'un polype bien identifié (l'image "support") et vous voulez que l'ordinateur trouve les polypes similaires sur de nouvelles images (les images "requêtes").

C'est là qu'intervient RPG-SAM, une nouvelle méthode intelligente qui fonctionne sans avoir besoin d'apprendre de nouvelles choses (c'est "sans entraînement"). Voici comment cela fonctionne, expliqué simplement avec des analogies :

1. Le Problème : Pourquoi les méthodes actuelles échouent

Imaginez que vous essayez de trouver un ami dans une foule en montrant une photo de lui à un garde de sécurité.

Le problème de la photo floue : Parfois, la photo que vous montrez (l'image de référence) a des reflets de lumière ou du mucus qui cachent le visage. Si le garde regarde toute la photo de la même manière, il va chercher des reflets au lieu du visage. C'est ce qu'on appelle l'hétérogénéité régionale : toutes les zones de la photo ne sont pas aussi fiables.
Le problème du seuil rigide : Une fois que le garde a repéré des zones potentielles, il doit décider : "Est-ce assez clair pour être mon ami ?". Les méthodes actuelles utilisent une règle fixe : "Si c'est plus clair que 50%, c'est bon". Mais imaginez que dans une image, votre ami est très lumineux, et dans une autre, il est dans l'ombre. Une règle fixe ne fonctionne pas partout. C'est l'hétérogénéité d'intensité.

2. La Solution RPG-SAM : Trois Super-Pouvoirs

L'équipe de chercheurs a créé RPG-SAM pour résoudre ces problèmes avec trois astuces principales :

A. Le Détective de Fiabilité (RWPM) : "Ne faites pas confiance à tout le monde"

Au lieu de prendre la photo de référence telle quelle, RPG-SAM la découpe en petits morceaux (comme des pièces de puzzle).

L'astuce : Il examine chaque morceau et se demande : "Est-ce que ce morceau ressemble vraiment à un polype, ou est-ce juste un reflet de lumière ?".
L'analogie : Imaginez un détective qui rejette les témoignages de témoins qui ont les yeux bandés (les zones floues ou réfléchissantes) et qui écoute attentivement ceux qui ont une vue claire. Il utilise aussi le "fond" de l'image (les zones saines) comme un repoussoir pour s'assurer qu'il ne confond pas un polype avec un simple pli de l'intestin.
Résultat : Il crée une "carte de chaleur" très précise, en ignorant le bruit et en se concentrant sur les zones fiables.

B. Le Choix Géométrique Intelligent (GAS) : "La forme compte plus que la couleur"

Une fois la carte de chaleur créée, il faut décider où tracer la frontière.

L'astuce : Au lieu d'utiliser une règle fixe (comme "couper à 50% de luminosité"), RPG-SAM teste plusieurs seuils différents. Pour chaque tentative, il regarde la forme du résultat.
L'analogie : C'est comme si vous cherchiez un ballon de football dans un tas de balles de différentes tailles. Vous ne regardez pas seulement la couleur, vous vous demandez : "Est-ce que ça ressemble à un ballon ? Est-ce que c'est rond et compact ?". Si un seuil donne une forme bizarre et éclatée, il le rejette. S'il donne une belle forme ronde, il le garde.
Résultat : Le système s'adapte automatiquement à chaque nouvelle image, qu'elle soit claire ou sombre.

C. Le Polissage Itératif (PIR) : "L'art de la retouche"

Même avec les deux étapes précédentes, le résultat peut être un peu grossier.

L'astuce : RPG-SAM utilise un modèle puissant (appelé SAM2) pour affiner les bords, mais il ne le fait pas au hasard. Il utilise la forme trouvée précédemment comme un guide.
L'analogie : Imaginez un sculpteur qui a déjà taillé une ébauche grossière. Il regarde son ébauche, voit où il a manqué un morceau (une zone où le polype n'est pas assez grand) et ajoute de la matière. Puis il voit où il a mis trop de matière (du bruit de fond) et enlève un peu. Il répète ce processus jusqu'à ce que la statue soit parfaite.
Résultat : Des contours nets et précis, même dans des cas difficiles.

3. Le Résultat : Pourquoi c'est génial ?

Grâce à cette approche, RPG-SAM est beaucoup plus précis que les méthodes actuelles. Sur les tests, il a amélioré la précision de détection de plus de 5 % par rapport aux meilleurs concurrents.

En résumé :
RPG-SAM est comme un assistant médical ultra-intelligent qui ne se contente pas de copier-coller une image. Il critique sa propre image de référence pour enlever les erreurs, s'adapte à la lumière de chaque nouvelle photo, et retouche le résultat jusqu'à ce que ce soit parfait. C'est une solution idéale pour les hôpitaux qui ont peu de données étiquetées mais qui ont besoin de résultats fiables immédiatement.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La détection de polypes est cruciale pour le dépistage précoce du cancer colorectal. Bien que les modèles supervisés atteignent une haute précision, leur dépendance à des annotations au niveau des pixels à grande échelle limite leur évolutivité clinique. Les méthodes récentes de segmentation "one-shot" sans entraînement (training-free), basées sur des modèles de fondation comme le Segment Anything Model (SAM), offrent une alternative prometteuse.

Cependant, les approches existantes souffrent d'un biais d'uniformité qui ignore l'hétérogénéité des données médicales :

Hétérogénéité régionale (Support) : Les méthodes traitent tous les pixels de l'image de support (foreground) comme également représentatifs. Or, les images endoscopiques contiennent souvent des zones dégradées (reflets, mucus) qui génèrent du bruit et des faux positifs.
Hétérogénéité contextuelle : Le fond (background) est souvent ignoré alors qu'il pourrait servir de référence négative pour supprimer les activations erronées.
Hétérogénéité d'intensité (Réponse) : Les méthodes actuelles utilisent des seuils de binarisation fixes pour convertir les cartes de chaleur en masques. Or, l'intensité de réponse varie considérablement d'une image à l'autre, rendant les règles statiques inadéquates.

2. Méthodologie : RPG-SAM

L'architecture proposée, RPG-SAM, est un cadre basé sur SAM2 qui ne nécessite aucun ajustement de paramètres. Elle se compose de trois modules principaux conçus pour adresser spécifiquement les hétérogénéités mentionnées ci-dessus :

A. Extraction de Prototypes Pondérés par la Fiabilité (RWPM)

Ce module vise à résoudre l'hétérogénéité régionale et contextuelle.

Extraction de caractéristiques : Utilisation de DINOv2 pour extraire des caractéristiques profondes, divisées en superpixels (via l'algorithme SLIC) pour créer des prototypes de premier plan ( $P_{fg}$ ) et d'arrière-plan ( $P_{bg}$ ).
Évaluation de la fiabilité : Chaque prototype de premier plan est pondéré selon deux métriques :
1. Facteur de Contraste (Intrinsic Reliability) : Mesure la capacité du prototype à se distinguer du fond de l'image de support.
2. Facteur de Pureté Inverse (Query-specific Relevance) : Vérifie la stabilité de l'appariement entre l'image de support et l'image requête (query).
Suppression du bruit : Une carte de chaleur initiale ( $H_{init}$ ) est générée en agrégeant les similarités pondérées des prototypes de premier plan, tout en soustrayant explicitement les similarités avec les prototypes d'arrière-plan ( $P_{bg}$ ) pour agir comme des ancres négatives et supprimer les faux positifs.

B. Sélection Adaptative de Seuil Géométrique (GAS)

Ce module remplace les seuils fixes par une sélection dynamique basée sur des priors géométriques.

Génération de candidats : Une plage de seuils est appliquée à la carte de chaleur pour générer un ensemble de masques binaires candidats.
Score Géométrique ( $S_{geo}$ ) : Chaque candidat est évalué selon un score combinant :
1. Solidité pondérée : Privilégie les formes convexes et régulières (typiques des polypes) en calculant le rapport entre l'aire du composant et son enveloppe convexe.
2. Consensus d'échelle : Pénalise les candidats trop petits par rapport à une aire de référence attendue ( $A_{ref}$ ).
Le masque candidat avec le score $S_{geo}$ le plus élevé est sélectionné comme masque prioritaire ( $M_{prior}$ ) pour guider SAM.

C. Raffinement Itératif Guidé par le Prior (PIR)

Ce module affine les limites anatomiques de manière itérative sans intervention humaine.

Boucle de correction : Le masque actuel est comparé au masque prioritaire ( $M_{prior}$ ) via des métriques de couverture (Cov) et d'IoU.
Stratégie de prompts :
- Si la couverture est insuffisante, des points positifs sont générés au centre des zones manquées (faux négatifs).
- Si le bruit de fond est présent, des points négatifs sont insérés dans les zones de faux positifs.
Le processus s'arrête lorsque les critères de convergence sont atteints ou après un nombre maximal d'itérations, en conservant le masque avec le meilleur IoU historique.

3. Contributions Clés

Cadre sans entraînement (Training-Free) : Une solution robuste pour la segmentation de polypes en "one-shot" qui évite le besoin de grandes quantités de données annotées.
Gestion explicite de l'hétérogénéité : Introduction de mécanismes (RWPM et GAS) qui ne traitent pas les données de manière homogène, mais adaptent le traitement à la fiabilité des features et à la variabilité des réponses.
Suppression active du fond : Utilisation du fond de l'image de support comme référence négative pour réduire le bruit, une approche souvent négligée.
Adaptation dynamique : Remplacement des règles de seuillage rigides par une sélection adaptative basée sur la morphologie attendue des polypes.

4. Résultats Expérimentaux

Le cadre a été évalué sur quatre jeux de données publics (Kvasir, CVC-ClinicDB, CVC-ColonDB, PolypGen) en utilisant des métriques mIoU et mDice.

Performance sur Kvasir : RPG-SAM atteint 78,65 % de mIoU et 85,65 % de mDice, surpassant l'état de l'art (ProtoSAM) de 5,56 % en mIoU.
Robustesse multi-centres : Sur le jeu de données PolypGen (provenant de trois centres différents), le modèle démontre une robustesse supérieure face aux changements de domaine, évitant les activations de faux positifs fréquentes chez les autres modèles.
Études d'ablation :
- La suppression du fond (BG Supp.) apporte un gain de +3,78 % en mDice.
- Le module RWPM améliore la granularité spatiale.
- Le module GAS surpasse les seuils fixes de +2,59 % en mDice.
- Le raffinement itératif (PIR) affine les résultats finaux.

5. Signification et Impact

RPG-SAM représente une avancée significative pour l'application clinique de l'IA en endoscopie. En éliminant le besoin d'entraînement lourd et en gérant intelligemment les artefacts visuels et la variabilité des données, il offre une solution scalable et fiable pour les scénarios médicaux où les données annotées sont rares. La capacité du modèle à s'adapter dynamiquement aux conditions cliniques variées (reflets, mucus, variations d'éclairage) en fait un outil prometteur pour l'aide au diagnostic en temps réel. Les auteurs prévoient d'étendre ce cadre à la cohérence temporelle dans les vidéos endoscopiques.