DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Ce papier propose DQE-CIR, une méthode de recherche d'images composée qui améliore la discrimination des requêtes en intégrant des pondérations d'attributs apprissables et un échantillonnage de négatifs relatifs à la cible pour mieux gérer les modifications d'attributs fins.

Geon Park, Ji-Hoon Park, Seong-Whan Lee

Publié 2026-03-05
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes dans une immense bibliothèque de vêtements (ou d'objets) et que vous cherchez quelque chose de très précis. Vous avez une photo de départ (votre "image de référence") et vous voulez dire à la bibliothèque : "Je veux cette chemise, mais en bleu, avec des manches courtes et un motif de chat noir."

C'est ce qu'on appelle la Recherche d'Images Composée (CIR). Le défi, c'est que les ordinateurs sont souvent un peu "brouillons" : ils trouvent une chemise bleue, mais avec des manches longues, ou une chemise à manches courtes mais en rouge. Ils confondent les détails.

Les auteurs de ce papier, Geon Park et son équipe, ont créé une nouvelle méthode appelée DQE-CIR pour régler ce problème. Voici comment ça marche, expliqué simplement avec des analogies :

1. Le Problème : Le "Bruit" dans la bibliothèque

Les anciennes méthodes fonctionnaient un peu comme un professeur de musique très strict qui dit : "Seule la partition parfaite est bonne, tout le reste est faux."

  • Le problème : Si vous cherchez une chemise bleue à manches courtes, et que le système trouve une chemise bleue à manches longues, il la rejette brutalement. Mais en réalité, cette chemise est presque bonne ! En la rejetant trop vite, le système "oublie" qu'elle contient une partie de ce que vous voulez (la couleur bleue). C'est ce qu'ils appellent la suppression de pertinence.
  • La confusion : D'un autre côté, si vous cherchez une chemise bleue et une autre rouge, le système peut finir par les mélanger dans sa tête, car elles sont toutes les deux des chemises. C'est la confusion sémantique.

2. La Solution DQE-CIR : Le Chef d'Orchestre Intelligents

Pour résoudre ça, DQE-CIR utilise deux astuces principales :

Astuce A : Les "Poids d'Attention" Apprenables (Le Chef d'Orchestre)

Imaginez que votre demande ("bleu, manches courtes") est une partition de musique.

  • Dans les anciennes méthodes, l'ordinateur écoutait tout avec le même volume.
  • Avec DQE-CIR, l'ordinateur a un chef d'orchestre intelligent (les "poids d'attributs"). Si vous dites "bleu", le chef d'orchestre baisse le volume des autres détails (comme le tissu) et exagère le volume de la couleur bleue.
  • L'analogie : C'est comme si vous aviez un égaliseur audio. Si vous cherchez "rouge", vous montez le bouton "rouge" au maximum pour que l'ordinateur ne rate rien, tout en baissant le bruit de fond. Cela permet de créer une "empreinte digitale" de votre recherche beaucoup plus précise.

Astuce B : L'Échantillonnage de Négatifs Relatifs (Le Coach de Sport)

C'est la partie la plus ingénieuse. Pour apprendre, l'ordinateur doit comparer votre recherche avec des images qui ne correspondent pas (les "négatifs").

  • L'ancienne méthode : Elle prenait n'importe quelle image qui n'était pas la bonne (par exemple, une voiture quand vous cherchez un chat). C'était trop facile ! L'ordinateur apprenait vite, mais pas bien. Ou pire, elle prenait des images presque parfaites mais fausses, ce qui rendait l'ordinateur confus.
  • La méthode DQE-CIR (Zone Moyenne) : Imaginez un coach de sport qui ne vous fait pas courir contre un enfant de 5 ans (trop facile) ni contre un champion olympique (trop dur). Il vous choisit un adversaire juste un peu plus fort que vous, dans une "zone moyenne".
    • Le système regarde toutes les images.
    • Il écarte celles qui sont trop loin (inutiles).
    • Il écarte celles qui sont trop proches de la réponse parfaite (trop confuses).
    • Il garde une seule image dans cette "zone moyenne" pour vous challenger.
  • Le résultat : En se battant contre le bon adversaire (ni trop facile, ni trop dur), l'ordinateur apprend vraiment à distinguer les détails fins, comme la différence entre un chat noir et un chat gris.

3. Le Résultat : Une Recherche de Précision Chirurgicale

Grâce à ces deux techniques, DQE-CIR fonctionne comme un détective très pointu :

  1. Il sait exactement quels détails sont importants (grâce aux poids d'attention).
  2. Il s'entraîne sur les cas les plus difficiles, mais pas impossibles (grâce à la zone moyenne).

En résumé :
Au lieu de dire "C'est ça ou c'est n'importe quoi", DQE-CIR dit : "Je sais que cette chemise est bleue mais pas à manches courtes, donc je vais apprendre à faire la différence avec celle qui est bleue ET à manches courtes."

Les tests montrent que cette méthode trouve exactement ce que vous cherchez, même si vous demandez des changements très subtils (comme changer la couleur d'un objet ou le nombre d'animaux sur une photo), là où les autres méthodes se trompent souvent. C'est comme passer d'un chercheur qui a des lunettes de soleil à un chercheur avec des jumelles de haute précision !