Pix2Key: Controllable Open-Vocabulary Retrieval with Semantic Decomposition and Self-Supervised Visual Dictionary Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes dans une immense bibliothèque de vêtements, mais au lieu de chercher un article spécifique avec un mot-clé, vous apportez un vêtement que vous aimez et vous dites au bibliothécaire : « J'adore cette robe, mais je veux qu'elle soit bleue, sans rayures et en soie ».

C'est ce qu'on appelle la Recherche d'Images Composée (CIR). Le problème, c'est que les systèmes actuels sont souvent comme des bibliothécaires un peu distraits : ils peuvent oublier un détail crucial (comme la couleur) ou vous donner dix robes qui sont presque identiques, sans aucune variété.

Voici comment Pix2Key change la donne, expliqué simplement :

1. Le Problème : Le "Brouillard" de la recherche

Les méthodes classiques essaient de fusionner l'image et le texte en un seul "brouillon" mental. C'est comme si vous décriviez votre rêve à quelqu'un en une seule phrase confuse. Souvent, les détails fins (la forme du col, le motif précis) se perdent dans le mélange, ou le système vous renvoie des résultats trop similaires entre eux.

2. La Solution Pix2Key : Le "Dictionnaire Visuel"

Au lieu de faire un résumé flou, Pix2Key transforme chaque image et chaque demande en une liste de cartes d'identité précise, comme un dictionnaire.

Pour l'image de référence : Le système ne dit pas juste "c'est une robe". Il crée une fiche :
- Couleur : Rose
- Motif : Rayé
- Manches : Longues
Pour votre demande (le texte) : Il ne lit pas juste la phrase. Il la décompose en ordres clairs :
- ✅ À ajouter : Couleur "Bleue"
- ❌ À éviter : Motif "Rayé"
- 🔒 À garder : Manches "Longues" (si vous ne changez pas ce point)

C'est comme passer d'une conversation vague à une liste de courses très structurée où chaque ingrédient a son rôle.

3. L'Entraînement Secret : Le "Dessinateur qui apprend sans prof"

Le papier présente aussi une astuce géniale appelée V-Dict-AE. Imaginez un artiste qui doit apprendre à dessiner des vêtements sans jamais voir de modèles étiquetés par des humains.

Il regarde une photo, la transforme en "mots-clés" (le dictionnaire), puis essaie de redessiner l'image originale à partir de ces mots.
S'il rate un détail (il oublie le col), il se corrige tout seul.
Résultat : Il devient un expert pour capturer les petits détails visuels importants, même sans qu'on lui dise explicitement quoi chercher. Cela rend le "dictionnaire" beaucoup plus précis.

4. La Diversité : Éviter la "Vague de clones"

Souvent, les moteurs de recherche vous donnent 10 résultats qui sont des copies quasi parfaites les uns des autres. Pix2Key ajoute une étape finale intelligente : le reclassement pour la diversité.

C'est comme un chef cuisinier qui prépare un plateau de dégustation. Il s'assure que :

Tous les plats respectent vos interdits alimentaires (pas de noix, pas de gluten).
Mais qu'il y a aussi une variété de saveurs et de textures (pas 10 plats identiques).
Le système choisit donc les meilleures robes qui respectent vos critères, mais qui sont aussi différentes les unes des autres pour vous offrir un vrai choix.

En Résumé

Pix2Key est comme un assistant de shopping ultra-intelligent qui :

Ne se contente pas de deviner, il décompose votre demande en règles claires (ce qu'on veut, ce qu'on rejette, ce qu'on garde).
Apprend à voir les détails fins tout seul, comme un enfant qui apprend à dessiner en recopiant.
Vous propose une sélection variée et non pas une liste de clones, tout en respectant scrupuleusement vos envies.

C'est une façon plus humaine, plus précise et plus contrôlable de trouver exactement ce que l'on cherche dans un océan d'images.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : La Récupération d'Images Composées (CIR)

La Récupération d'Images Composées (Composed Image Retrieval - CIR) est un problème de recherche multimodale où la requête est constituée d'une image de référence et d'une instruction d'édition en langage naturel. L'objectif est de retrouver des images qui appliquent le changement demandé tout en préservant le contenu visuel pertinent de l'image de référence.

Limites des approches existantes :

Méthodes supervisées classiques : Elles reposent sur des triplets (référence, édition, cible) et des fonctions de fusion explicites. Elles sont coûteuses à mettre à l'échelle et peuvent perdre des indices fins (fine-grained cues) en fusionnant les signaux visuels et textuels de manière opaque.
Méthodes Zero-shot récentes : Elles utilisent souvent des modèles de vision-langage (VLM) pour générer une légende de l'image de référence, puis réécrivent cette légende selon l'édition.
- Problème : Cette approche crée un goulot d'étranglement informationnel (perte de détails fins comme la forme du col ou le motif local).
- Problème : Elle manque souvent l'intention implicite de l'utilisateur et tend à retourner des résultats répétitifs (manque de diversité).
Évaluation : Les benchmarks actuels se concentrent sur la récupération d'une cible unique étiquetée, sans mesurer la satisfaction des contraintes d'attributs sur l'ensemble de la liste ou la diversité des résultats.

2. Méthodologie : Pix2Key

Pix2Key propose un cadre d'inférence sans entraînement spécifique (training-free) basé sur des dictionnaires visuels à vocabulaire ouvert.

A. Représentation par Dictionnaires Visuels

Au lieu de compresser l'image en un seul token ou une phrase, Pix2Key représente à la fois les images de la base de données et les requêtes composées sous forme de dictionnaires d'attributs (paires clé-valeur).

Pour les images candidates : Un modèle VLM (ex: Qwen-VL) extrait un dictionnaire $D_{img} = \{(k_m, v_m)\}$ (ex: couleur: bleu, motif: rayé).
Pour la requête composée : L'édition textuelle est décomposée en contraintes signées pour former un dictionnaire $D_q$ $D_{q}$ :
- $p_m = +1$ : Attributs désirés (à ajouter/renforcer).
- $p_m = -1$ : Attributs à éviter (à supprimer/contredire).
- $p_m = 0$ : Ancres de l'ensemble ouvert (attributs non contraints mais à préserver pour le contexte).

B. Indexation et Score de Pertinence

Indexation : Les dictionnaires sont sérialisés en chaînes de caractères et encodés dans un espace d'embedding textuel (via un encodeur OpenCLIP gelé).
Score de pertinence : Pour un candidat $i$ , le score $R(i)$ est calculé en combinant les similarités cosinus avec les sous-ensembles de la requête :
$R(i) = \alpha \cdot \text{cossim}(q^+, e_i) + \beta \cdot \text{cossim}(q^0, e_i) - (1-\alpha) \cdot \text{cossim}(q^-, e_i)$
Cela permet un contrôle explicite : maximiser les attributs souhaités, minimiser les interdits, et préserver le contexte.

C. Réordonnancement Sensible à la Diversité

Pour éviter les résultats redondants, Pix2Key applique une étape de réordonnancement basée sur l'algorithme MMR (Maximal Marginal Relevance). Il optimise un compromis entre la pertinence du score $R(i)$ et la distance par rapport aux éléments déjà sélectionnés, permettant à l'utilisateur de contrôler le compromis entre précision et diversité via un paramètre $\lambda$ .

D. V-Dict-AE : Auto-encodeur de Dictionnaire Visuel (Auto-Supervisé)

Pour améliorer la qualité des tokens du dictionnaire sans triplets CIR, les auteurs proposent V-Dict-AE :

Principe : Un module auto-supervisé qui apprend à encoder une image en une séquence de tokens compacts (slots) alignés avec un encodeur text gelé et un décodeur de diffusion gelé.
Objectif : Reconstruire l'image originale à partir de ces slots via un modèle de diffusion. Cela force le modèle à capturer les détails visuels fins nécessaires à la reconstruction, améliorant ainsi la compréhension des attributs sans supervision spécifique à la CIR.

3. Contributions Clés

Pix2Key : Un cadre CIR sans entraînement spécifique qui représente les requêtes et les candidats comme des dictionnaires visuels structurés, rendant les contraintes d'intention explicites et contrôlables.
Mécanisme de réordonnancement : Une intégration de la diversité (MMR) avec la représentation par dictionnaire, permettant de gérer le compromis satisfaction des contraintes / variété des résultats.
V-Dict-AE : Un auto-encodeur auto-supervisé qui affine les représentations de dictionnaire en utilisant uniquement des images (via la reconstruction par diffusion), éliminant le besoin de triplets CIR coûteux.
Benchmark DFMM-Compose : Un nouveau benchmark dérivé de DeepFashion-MM, enrichi de descriptions d'éditions générées et d'étiquettes d'attributs structurées. Il permet d'évaluer non seulement la récupération de la cible unique, mais aussi la cohérence des attributs (AC) et la diversité intra-liste (ILD).

4. Résultats Expérimentaux

Les expériences ont été menées sur FashionIQ, CIRR et le nouveau DFMM-Compose.

Précision (Recall@K) :
- Sur FashionIQ, Pix2Key surpasse les méthodes zero-shot existantes (comme CIReVL, Pic2Word, SEARLE). L'ajout de V-Dict-AE améliore encore les performances (ex: +2,3 points sur Recall@10 global par rapport à Pix2Key de base).
- Sur CIRR, Pix2Key+V-Dict-AE obtient les meilleurs scores sur tous les métriques Recall@1, @5, @10, @50.
Alignement de l'Intention (DFMM-Compose) :
- Pix2Key obtient un score AC@50 (cohérence des attributs) nettement supérieur aux méthodes basées sur la réécriture de légendes. Cela démontre que la représentation par dictionnaire capture mieux les nuances des modifications d'attributs.
Diversité :
- Pix2Key atteint le score ILD@50 (diversité intra-liste) le plus élevé, prouvant que le réordonnancement MMR fonctionne efficacement sans dégrader la pertinence, contrairement à d'autres pipelines où la diversité réduit la précision.
Analyse d'ablation :
- L'utilisation conjointe de contraintes positives, négatives et d'ancres (open-set) est cruciale pour la performance.
- L'ajout de V-Dict-AE améliore à la fois la précision et la cohérence des attributs, confirmant que l'apprentissage par reconstruction préserve les preuves visuelles fines.

5. Signification et Impact

Signification technique :
Pix2Key marque un changement de paradigme en passant d'une fusion de signaux "boîte noire" à une représentation explicite et interprétable des attributs. En décomposant l'intention en contraintes signées (+, -, 0), le système offre un contrôle granulaire sur la recherche. L'approche auto-supervisée (V-Dict-AE) démontre qu'il est possible d'améliorer la compréhension fine des attributs sans dépendre de données d'entraînement annotées coûteuses (triplets CIR).

Impact pratique :

E-commerce et Design : Permet aux utilisateurs de rechercher des produits avec des modifications précises (ex: "la même robe, mais en bleu et sans rayures") avec une fiabilité accrue et une liste de résultats plus variée.
Évolutivité : Le système étant basé sur des embeddings textuels pré-entraînés et un indexation hors ligne, il est facilement déployable sur de grandes bases de données sans réentraînement complet.
Évaluation : Le benchmark DFMM-Compose comble un vide critique en permettant d'évaluer la diversité et la satisfaction des contraintes au-delà de la simple présence d'une cible unique.

En résumé, Pix2Key propose une solution contrôlable, interprétable et mesurable pour la récupération d'images composées, surmontant les limitations des approches actuelles en matière de détails fins et de diversité des résultats.