DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes dans une immense bibliothèque de vêtements (ou d'objets) et que vous cherchez quelque chose de très précis. Vous avez une photo de départ (votre "image de référence") et vous voulez dire à la bibliothèque : "Je veux cette chemise, mais en bleu, avec des manches courtes et un motif de chat noir."

C'est ce qu'on appelle la Recherche d'Images Composée (CIR). Le défi, c'est que les ordinateurs sont souvent un peu "brouillons" : ils trouvent une chemise bleue, mais avec des manches longues, ou une chemise à manches courtes mais en rouge. Ils confondent les détails.

Les auteurs de ce papier, Geon Park et son équipe, ont créé une nouvelle méthode appelée DQE-CIR pour régler ce problème. Voici comment ça marche, expliqué simplement avec des analogies :

1. Le Problème : Le "Bruit" dans la bibliothèque

Les anciennes méthodes fonctionnaient un peu comme un professeur de musique très strict qui dit : "Seule la partition parfaite est bonne, tout le reste est faux."

Le problème : Si vous cherchez une chemise bleue à manches courtes, et que le système trouve une chemise bleue à manches longues, il la rejette brutalement. Mais en réalité, cette chemise est presque bonne ! En la rejetant trop vite, le système "oublie" qu'elle contient une partie de ce que vous voulez (la couleur bleue). C'est ce qu'ils appellent la suppression de pertinence.
La confusion : D'un autre côté, si vous cherchez une chemise bleue et une autre rouge, le système peut finir par les mélanger dans sa tête, car elles sont toutes les deux des chemises. C'est la confusion sémantique.

2. La Solution DQE-CIR : Le Chef d'Orchestre Intelligents

Pour résoudre ça, DQE-CIR utilise deux astuces principales :

Astuce A : Les "Poids d'Attention" Apprenables (Le Chef d'Orchestre)

Imaginez que votre demande ("bleu, manches courtes") est une partition de musique.

Dans les anciennes méthodes, l'ordinateur écoutait tout avec le même volume.
Avec DQE-CIR, l'ordinateur a un chef d'orchestre intelligent (les "poids d'attributs"). Si vous dites "bleu", le chef d'orchestre baisse le volume des autres détails (comme le tissu) et exagère le volume de la couleur bleue.
L'analogie : C'est comme si vous aviez un égaliseur audio. Si vous cherchez "rouge", vous montez le bouton "rouge" au maximum pour que l'ordinateur ne rate rien, tout en baissant le bruit de fond. Cela permet de créer une "empreinte digitale" de votre recherche beaucoup plus précise.

Astuce B : L'Échantillonnage de Négatifs Relatifs (Le Coach de Sport)

C'est la partie la plus ingénieuse. Pour apprendre, l'ordinateur doit comparer votre recherche avec des images qui ne correspondent pas (les "négatifs").

L'ancienne méthode : Elle prenait n'importe quelle image qui n'était pas la bonne (par exemple, une voiture quand vous cherchez un chat). C'était trop facile ! L'ordinateur apprenait vite, mais pas bien. Ou pire, elle prenait des images presque parfaites mais fausses, ce qui rendait l'ordinateur confus.
La méthode DQE-CIR (Zone Moyenne) : Imaginez un coach de sport qui ne vous fait pas courir contre un enfant de 5 ans (trop facile) ni contre un champion olympique (trop dur). Il vous choisit un adversaire juste un peu plus fort que vous, dans une "zone moyenne".
- Le système regarde toutes les images.
- Il écarte celles qui sont trop loin (inutiles).
- Il écarte celles qui sont trop proches de la réponse parfaite (trop confuses).
- Il garde une seule image dans cette "zone moyenne" pour vous challenger.
Le résultat : En se battant contre le bon adversaire (ni trop facile, ni trop dur), l'ordinateur apprend vraiment à distinguer les détails fins, comme la différence entre un chat noir et un chat gris.

3. Le Résultat : Une Recherche de Précision Chirurgicale

Grâce à ces deux techniques, DQE-CIR fonctionne comme un détective très pointu :

Il sait exactement quels détails sont importants (grâce aux poids d'attention).
Il s'entraîne sur les cas les plus difficiles, mais pas impossibles (grâce à la zone moyenne).

En résumé :
Au lieu de dire "C'est ça ou c'est n'importe quoi", DQE-CIR dit : "Je sais que cette chemise est bleue mais pas à manches courtes, donc je vais apprendre à faire la différence avec celle qui est bleue ET à manches courtes."

Les tests montrent que cette méthode trouve exactement ce que vous cherchez, même si vous demandez des changements très subtils (comme changer la couleur d'un objet ou le nombre d'animaux sur une photo), là où les autres méthodes se trompent souvent. C'est comme passer d'un chercheur qui a des lunettes de soleil à un chercheur avec des jumelles de haute précision !

Each language version is independently generated for its own context, not a direct translation.

Titre

DQE-CIR : Représentations de requêtes distinctives via des poids d'attributs apprenables et un échantillonnage de négatifs relatifs à la cible dans la recherche d'images composées.

1. Problématique

La Recherche d'Images Composées (CIR - Composed Image Retrieval) vise à retrouver une image cible en combinant une image de référence et un texte de modification spécifiant le changement souhaité (ex: "une chemise bleue à manches courtes" à partir d'une image de chemise rouge).

Les méthodes existantes reposent majoritairement sur l'apprentissage contrastif, où l'image cible est la seule instance positive et toutes les autres images sont traitées comme des négatifs. Cette approche souffre de deux limitations majeures :

Suppression de la pertinence (Relevance Suppression) : Les images qui partagent des attributs sémantiques avec la cible (mais qui ne sont pas l'exacte cible) sont incorrectement traitées comme des négatifs et repoussées dans l'espace d'embedding, réduisant la qualité de la recherche.
Confusion sémantique (Semantic Confusion) : Les représentations de différentes intentions de modification (ex: changer la couleur vs changer la forme) tendent à s'effondrer dans des régions proches de l'espace d'embedding, rendant difficile la distinction fine entre des attributs subtils.

2. Méthodologie : DQE-CIR

Pour surmonter ces limites, les auteurs proposent DQE-CIR, un cadre conçu pour apprendre des représentations de requêtes plus distinctives et sensibles aux attributs. L'architecture s'appuie sur le modèle BLIP-2 comme backbone vision-langage et intègre trois composants clés :

A. Pondération des Attributs Apprenables (Learnable Attribute Weights)

Principe : Le modèle utilise un mécanisme d'attention pour extraire des sous-requêtes spécifiques aux attributs (couleur et forme) à partir du texte de modification.
Mécanisme : Des poids scalaires apprenables ( $w_{color}$ , $w_{shape}$ ) sont appliqués pour moduler l'importance de ces caractéristiques spécifiques dans l'embedding final de la requête composée.
Objectif : Cela permet au modèle de mettre l'accent sur les attributs critiques pour l'intention de recherche tout en supprimant les caractéristiques moins informatives, créant un espace d'embedding plus discriminant.

B. Échantillonnage de Négatifs Relatifs à la Cible (Target Relative Negative Sampling - TRNS)

Concept : Au lieu de rejeter toutes les images non-cibles, le TRNS évalue chaque candidat par rapport à l'image cible en calculant un score $\Delta$ (la différence de similarité cosinus entre la cible et le candidat).
Zone Intermédiaire (Mid-Zone) : Le modèle définit une zone de scores $\Delta$ $Δ$ intermédiaires ( $\alpha \le \Delta S \le \beta$ $α \leq Δ S \leq β$ ).
- Les négatifs "trop faciles" (très éloignés) sont exclus.
- Les "faux négatifs" (trop proches de la cible, donc sémantiquement pertinents) sont exclus.
Sélection : Un seul négatif est échantillonné aléatoirement dans cette zone intermédiaire pour l'apprentissage. Cela force le modèle à se concentrer sur des échantillons informatifs et difficiles, évitant la suppression de pertinence.

C. Apprentissage par Paires à Négatif Unique (Single-Negative Pairwise Learning)

Stratégie : Contrairement à l'apprentissage contrastif standard qui compare une positive à de nombreux négatifs, DQE-CIR utilise une approche par paires (une requête, une cible, un négatif sélectionné).
Fonction de Perte :
- Une perte de divergence KL pour aligner la distribution prédite sur la cible.
- Une perte de classement par marge (Ranking Margin Loss) pour maximiser la différence de similarité entre la cible et le négatif sélectionné.
- Des pertes auxiliaires spécifiques aux attributs (couleur, forme) pour renforcer la séparation fine.

3. Contributions Clés

DQE-CIR : Un nouveau cadre qui génère des embeddings de requêtes distinctifs et sensibles aux attributs grâce à la pondération apprenable et aux requêtes auxiliaires.
Stratégie TRNS : Une méthode d'échantillonnage de négatifs qui identifie une "zone intermédiaire" de candidats pertinents mais non-cibles, éliminant ainsi les faux négatifs et les négatifs trop faciles.
Apprentissage par Paires : L'application d'un apprentissage par paires à négatif unique pour renforcer la marge de classement et réduire la confusion sémantique.
Validation Expérimentale : Des preuves solides montrant que ces composants améliorent la précision de la recherche, en particulier pour les modifications d'attributs fins.

4. Résultats Expérimentaux

Les expériences ont été menées sur les benchmarks standards FashionIQ (vêtements, attributs fins) et CIRR (scènes réelles, diversité visuelle), ainsi que sur CIRCO pour l'évaluation zero-shot.

FashionIQ : DQE-CIR surpasse les méthodes de l'état de l'art (comme QuRe, SPRC, CLIP4Cir). Par exemple, sur la catégorie "Dress", il atteint un Recall@10 de 48,47 contre 46,80 pour le meilleur précédent.
CIRR : Le modèle obtient les meilleurs scores globaux et au niveau des sous-ensembles (Recallsubset). Il atteint un Recall@1 de 54,05 et un score moyen de 82,16, surpassant QuRe (80,52). Les gains sont particulièrement notables dans la discrimination fine entre images visuellement similaires.
Zero-Shot (CIRCO) : DQE-CIR démontre une excellente généralisation sans entraînement spécifique sur le jeu de données, obtenant le meilleur mAP (24,27 à mAP@5).
Études d'ablation :
- La définition de la "zone intermédiaire" (mid-zone) est cruciale ; une plage de 60% ( $\alpha=0.2, \beta=0.8$ ) s'est révélée optimale.
- L'utilisation de poids d'attributs apprenables améliore significativement la précision sur les attributs spécifiques (couleur, forme).
- Les visualisations de l'attention croisée confirment que le modèle se concentre correctement sur les régions pertinentes (ex: les manches, la couleur) plutôt que sur l'image entière.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine de la CIR en adressant directement les défauts fondamentaux de l'apprentissage contrastif standard.

Précision Fine : Il permet une recherche beaucoup plus fiable pour des modifications subtiles (changement de couleur, de nombre d'objets, de forme), là où les méthodes précédentes échouaient souvent à distinguer les candidats similaires.
Robustesse : En évitant de pénaliser les images sémantiquement pertinentes (faux négatifs), le modèle produit un espace d'embedding plus structuré et robuste.
Applicabilité : La méthode offre une solution unifiée pour des tâches de recherche interactive où les utilisateurs affinent itérativement leurs intentions, avec des applications directes dans la recherche de mode, la recommandation de produits et la gestion de contenu.

En résumé, DQE-CIR démontre que la modélisation explicite de la pertinence relative et l'accentuation des attributs spécifiques sont essentielles pour atteindre une performance supérieure en recherche d'images composées.