Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le Traducteur qui a du mal à voir les détails

Imaginez que vous avez un traducteur génial (c'est le modèle d'intelligence artificielle, ou "VLM") qui peut comprendre n'importe quel mot que vous lui donnez. Si vous lui dites "trouvez-moi un chat", il sait ce qu'est un chat.

Mais ce traducteur a un gros défaut : il est excellent pour dire "Oui, il y a un chat quelque part sur cette photo", mais il est très mauvais pour dessiner le contour exact du chat. Il ne sait pas où finit le chat et où commence le tapis. C'est comme si quelqu'un vous donnait la recette d'un gâteau, mais sans vous dire comment le couper en parts.

De plus, si vous lui demandez de trouver un objet très spécifique (comme "la tasse bleue de ma grand-mère"), il est perdu s'il ne l'a jamais vu dans ses livres d'apprentissage.

🛠️ La Solution : RNS (Récupérer et Segmenter)

Les auteurs de cet article ont créé une méthode appelée RNS. Pour faire simple, c'est comme donner au traducteur un carnet de croquis et un stylo magique juste avant de lui poser la question.

Voici comment cela fonctionne, étape par étape, avec des analogies :

1. Le Carnet de Croquis (Les Exemples Visuels)

Au lieu de demander au traducteur de deviner à quoi ressemble un objet uniquement avec des mots, on lui montre quelques photos d'exemple (par exemple, 3 ou 5 photos de "tasses").

L'analogie : C'est comme si vous vouliez apprendre à reconnaître un type de voiture spécifique. Au lieu de lire une description ("elle est rouge, avec 4 portes"), vous montrez à votre ami 3 photos de cette voiture. Il comprendra beaucoup mieux !

2. Le Stylo Magique (L'Adaptation en Temps Réel)

Le plus génial de RNS, c'est qu'il ne réapprend pas tout le cerveau de l'IA (ce qui prendrait des jours). À la place, il crée un petit assistant temporaire pour chaque nouvelle photo que vous lui donnez.

L'analogie : Imaginez que vous avez un détective très intelligent mais un peu rigide. Avant d'inspecter une scène de crime (votre photo), vous lui donnez une fiche de mission avec les photos des suspects (vos exemples). Le détective ajuste immédiatement sa loupe pour chercher exactement ces suspects sur la photo. Une fois la mission finie, il oublie la fiche et est prêt pour la suivante.

3. La Fusion Intelligente (Mots + Images)

RNS ne se contente pas de montrer les photos. Il combine les mots (le nom de l'objet) et les photos (les exemples).

L'analogie : C'est comme si vous expliquiez à un enfant : "Cherche un chien (mot), et voici à quoi il ressemble (photo)".
- Si vous ne donnez que le mot, l'enfant peut confondre un chien avec un loup ou un chien de peluche.
- Si vous ne donnez que la photo, l'enfant peut confondre un chien avec un chat si les deux sont dans la même pièce.
- En donnant les deux, l'enfant sait exactement quoi chercher et où s'arrêter.

🚀 Pourquoi c'est révolutionnaire ?

C'est flexible : Parfois, vous n'avez pas de photos (seulement des mots). Parfois, vous n'avez pas de mots précis (par exemple, pour un objet médical rare), mais vous avez des photos. RNS fonctionne dans les deux cas, ou même avec les deux !
C'est rapide : L'IA n'a pas besoin de réapprendre tout son cerveau. Elle ajuste juste un petit bouton pour la photo du moment. C'est comme changer de lentille sur un appareil photo plutôt que de racheter un appareil entier.
C'est personnalisé : Vous pouvez montrer à l'IA une photo de votre chiot spécifique, et elle pourra le segmenter (le découper) sur n'importe quelle photo, même si elle ne l'a jamais vu avant. C'est comme si l'IA apprenait à reconnaître votre famille en quelques secondes.

🏆 Le Résultat

Grâce à cette méthode, l'IA arrive presque aussi bien à dessiner les contours des objets que les experts humains qui ont passé des années à apprendre sur des milliers d'images. Elle comble le fossé entre "je sais ce que c'est" (reconnaissance) et "je sais où c'est" (segmentation précise).

En résumé : RNS donne à l'IA une mémoire visuelle à court terme et un guide de mission pour chaque photo, lui permettant de devenir un expert du dessin de contours, même pour des objets qu'elle ne connaît pas encore bien.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La segmentation sémantique à vocabulaire ouvert (OVS) vise à étendre les capacités de reconnaissance "zero-shot" des modèles vision-langage (VLM) au niveau pixel, permettant de segmenter des catégories arbitraires définies par des prompts textuels.

Cependant, l'OVS souffre d'un écart de performance significatif par rapport aux modèles entièrement supervisés. Cet écart est dû à deux défis majeurs :

La supervision grossière : Les VLM sont entraînés sur des paires image-texte au niveau de l'image, ce qui ne fournit pas la précision nécessaire pour la localisation fine des pixels.
L'ambiguïté sémantique : Le langage naturel est souvent imprécis pour des tâches de segmentation pixel par pixel (ex: confusion entre "personne" et "motocyclette" si un cavalier est présent, ou hallucinations de fond).

L'objectif de cet article est de combler cet écart en introduisant un cadre few-shot (quelques exemples) qui enrichit les prompts textuels par un petit ensemble d'images d'appui annotées au niveau des pixels, tout en préservant la capacité d'ouvrir le vocabulaire à de nouvelles classes.

2. Méthodologie : Retrieve and Segment (RNS)

Les auteurs proposent RNS, un adaptateur de test (test-time adapter) augmenté par la récupération d'information. Contrairement aux méthodes précédentes qui fusionnent manuellement les modalités, RNS apprend à fusionner dynamiquement les caractéristiques textuelles et visuelles pour chaque image de test.

A. Construction des Supports

Le système utilise deux types de supports :

Support textuel : Noms de classes ou descriptions.
Support visuel : Un ensemble d'images annotées (masques pixeliques) pour certaines classes.
Le système gère des scénarios dynamiques où le support visuel peut être partiel (certaines classes n'ont que du texte, d'autres que de l'image, ou les deux).

B. Extraction et Fusion des Caractéristiques

Caractéristiques Visuelles : Pour chaque image d'appui, les caractéristiques de patchs sont extraites via un VLM (ex: OpenCLIP, DINOv3). Les masques sont rééchantillonnés pour correspondre aux patchs, permettant de regrouper les caractéristiques par classe pour former des prototypes visuels ( $v_c$ ).
Fusion Modale : Au lieu d'une fusion tardive heuristique, RNS crée des caractéristiques de classe fusionnées ( $f_{c\lambda}$ ) en combinant linéairement le prototype textuel ( $t_c$ ) et le prototype visuel ( $v_c$ ) avec un coefficient de mélange $\lambda$ :
$f_{c\lambda} = \lambda t_c + (1 - \lambda) v_c$
Plusieurs coefficients $\lambda$ sont utilisés pour capturer des informations complémentaires.

C. Adaptation au Moment du Test (Test-Time Adaptation - TTA)

C'est le cœur de la méthode. Pour une image de test donnée :

Récupération (Retrieval) : Le système identifie les exemples d'appui visuels les plus pertinents pour chaque patch de l'image de test en utilisant la métrique des $k$ plus proches voisins (k-NN) dans l'espace des caractéristiques.
Entraînement d'un Classifieur Léger : Un classifieur linéaire léger ( $g_\theta$ $g_{θ}$ ) est entraîné spécifiquement pour cette image de test en utilisant :
- Les caractéristiques des patchs d'appui récupérés.
- Les caractéristiques fusionnées (textuel + visuel) des classes pertinentes.
- Une fonction de perte pondérée qui utilise des poids de pertinence de classe ( $w_c$ ) calculés via la similarité entre l'image globale et les caractéristiques textuelles. Cela permet de supprimer le bruit provenant d'exemples d'appui non pertinents pour l'image courante.
Inférence : Le classifieur entraîné est appliqué aux patchs de l'image de test pour générer la carte de segmentation.

D. Gestion des Supports Partiels

Support visuel manquant : Si une classe n'a pas d'exemple visuel, RNS utilise une prédiction zero-shot pour générer des "pseudo-étiquettes" sur l'image de test, permettant de construire un prototype visuel temporaire pour la fusion.
Support textuel manquant : Si le nom de classe manque, le système utilise la moyenne des caractéristiques textuelles disponibles comme prior sémantique neutre.

3. Contributions Clés

Cadre Few-Shot pour l'OVS : Introduction d'un protocole enrichissant les prompts textuels par des exemples visuels annotés, couvrant des scénarios de support complet, partiel ou manquant.
RNS (Retrieve and Segment) : Un adaptateur de test qui apprend à fusionner les modalités textuelles et visuelles de manière apprise (et non heuristique) pour chaque image, créant une synergie forte.
Réduction de l'écart de supervision : La méthode réduit considérablement l'écart entre la segmentation zero-shot et la segmentation supervisée complète, tout en conservant la généralisation à vocabulaire ouvert.
Adaptabilité Dynamique : Le système supporte l'expansion continue de l'ensemble d'appui (ajout de nouvelles images à tout moment) et s'adapte naturellement à des tâches de segmentation personnalisée (ex: segmentation d'un objet spécifique parmi une classe générale).

4. Résultats Expérimentaux

Les expériences ont été menées sur six benchmarks (PASCAL VOC, Context, COCO, Cityscapes, ADE20K, etc.) avec différents backbones (OpenCLIP, DINOv3, SigLIP).

Performance Globale : RNS surpasse systématiquement les méthodes de l'état de l'art (kNN-CLIP, FREEDA, LPOSS) et les approches zero-shot pures.
- Gain significatif : +7,3 % sur OpenCLIP et +18,4 % sur DINOv3.txt avec seulement une image d'appui par classe.
- Avec 20 images d'appui, RNS réduit l'écart avec les modèles entièrement supervisés à seulement 11,5 % en moyenne, surpassant la méthode OVS précédente (CAT-Seg) de 14,1 %.
Robustesse aux Supports Partiels :
- RNS dégrade ses performances de manière lisse lorsque des classes manquent de support visuel ou textuel, contrairement aux méthodes concurrentes qui chutent brutalement ou tombent sous le niveau zero-shot.
- L'ablation montre que les poids de pertinence ( $w_c$ ) et la perte de pseudo-étiquetage sont cruciaux pour gérer les supports manquants.
Efficacité : L'adaptation se fait en moins d'une seconde sur un GPU NVIDIA A100. L'utilisation de propositions de régions (SAM 2.1) améliore encore la précision par rapport aux prédictions par patchs.
Segmentation Personnalisée : RNS permet de distinguer des instances spécifiques (ex: "mon assiette" vs "assiette") en ajoutant simplement quelques exemples à l'ensemble d'appui, sans réentraînement du backbone.

5. Signification et Impact

Cet article démontre que quelques exemples annotés suffisent à combler le fossé entre la reconnaissance zero-shot et la segmentation supervisée précise.

Avancée Théorique : Il prouve que la fusion apprise au moment du test (test-time learning) est supérieure aux fusions statiques ou heuristiques pour combiner les modalités textuelles et visuelles dans un contexte OVS.
Pratique : La méthode offre une solution viable pour des environnements réels où les données annotées sont rares ou partielles, et où les classes évoluent dynamiquement (monde ouvert).
Efficacité : En évitant le réentraînement du backbone lourd et en utilisant un classifieur linéaire léger, RNS offre un compromis optimal entre performance, flexibilité et coût computationnel.

En résumé, RNS établit un nouvel état de l'art pour la segmentation à vocabulaire ouvert en démontrant que l'ajout stratégique de quelques exemples visuels, couplé à une adaptation dynamique, permet d'atteindre des performances proches de la supervision complète tout en restant ouvert à de nouvelles catégories.