PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Le papier présente PinPoint, un benchmark complet pour l'analyse d'images composé (CIR) intégrant des réponses multiples, des négatifs explicites et des paraphrases, qui révèle des lacunes significatives dans les méthodes actuelles et propose une méthode de réordonnancement basée sur un MLLM pour les améliorer.

Rohan Mahadev, Joyce Yuan, Patrick Poirson, David Xue, Hao-Yu Wu, Dmitry Kislyuk

Publié 2026-03-06
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Le Détective qui a trop confiance en lui

Imaginez que vous cherchez un objet précis sur Internet, par exemple : « Montrez-moi cette robe, mais en rouge et avec des manches longues ». C'est ce qu'on appelle la Recherche d'Image Composée. Vous donnez une photo de départ et une petite instruction.

Le problème, c'est que les détectives actuels (les intelligences artificielles) sont devenus très forts pour trouver quelque chose qui ressemble à la demande, mais ils sont terriblement mauvais pour éviter les fausses pistes.

  • L'analogie du magasin : Imaginez un vendeur qui vous demande une « chaussure de sport rouge ». Il vous en donne 10 paires.
    • Le système actuel dit : « Super ! J'ai trouvé 2 paires rouges et 8 paires bleues. C'est un score parfait car j'ai trouvé les 2 rouges ! »
    • Le vrai client dit : « Attendez, j'ai demandé du rouge ! Pourquoi m'avez-vous donné 8 paires bleues ? C'est du bruit ! »

Les anciens tests ne notaient que si le vendeur trouvait au moins une bonne réponse. Ils ignoraient le fait qu'il vous avait inondé de mauvaises réponses.

🎯 La Solution : Le nouveau terrain de jeu « PinPoint »

Les chercheurs de Pinterest ont créé PinPoint, un nouveau terrain de jeu géant pour tester ces détectives. C'est comme passer d'un examen scolaire facile (où il n'y a qu'une seule bonne réponse) à une mission de réalité complexe.

Voici les 5 nouveautés de ce terrain de jeu :

  1. Plusieurs réponses justes : Dans la vraie vie, il n'y a pas qu'une seule robe rouge. Il y en a des centaines. PinPoint vérifie si le détective trouve plusieurs bonnes options, pas juste une.
  2. Les « Fausses Pistes » (Négatifs explicites) : C'est la grande innovation. Le test inclut des images qui ressemblent beaucoup à ce que vous voulez, mais qui sont fausses (ex: une robe rouge mais en soie alors que vous vouliez du coton). Le but est de voir si le détective sait dire « Non, ce n'est pas ça » au lieu de vous la vendre.
  3. La résistance aux mots : Si vous dites « Change la couleur en bleu » ou « Je veux ça en bleu », le détective doit comprendre que c'est la même chose. PinPoint teste 6 façons différentes de dire la même chose pour voir si l'IA panique quand on change le vocabulaire.
  4. Le duo d'images : Parfois, vous voulez combiner deux photos : « Une robe comme celle-ci, mais avec les chaussures de celle-là ». PinPoint teste si l'IA peut faire ce mélange complexe.
  5. L'équité : Le test vérifie si l'IA fonctionne aussi bien pour toutes les couleurs de peau et tous les styles de vie.

📉 Ce qu'ils ont découvert (Les mauvaises nouvelles)

En testant plus de 20 détectives différents, ils ont trouvé trois gros problèmes :

  • Le syndrome du « Oui, mais... » : Les meilleurs détectives trouvent bien les bonnes images, mais ils vous en donnent aussi beaucoup de mauvaises (environ 9 % du temps). Ils ne savent pas filtrer le bruit.
  • La sensibilité aux mots : Si vous changez un seul mot dans votre demande, la performance de l'IA chute de 25 %. C'est comme si un traducteur comprenait parfaitement le français, mais paniquait dès qu'on utilisait un synonyme.
  • Le blocage du duo : Quand on demande de combiner deux images, les IA s'effondrent. Elles perdent entre 40 % et 70 % de leur efficacité. C'est comme si elles ne pouvaient pas faire de cuisine avec deux ingrédients différents.

🛠️ L'astuce magique : Le « Révisionnaire » (Reranker)

Face à ces échecs, les chercheurs ont proposé une solution simple et gratuite : un « Révisionnaire ».

  • L'analogie : Imaginez que le détective (l'IA de base) fait une première liste de 100 suspects. Ensuite, un expert humain (une IA très puissante appelée MLLM) regarde cette liste et dit : « Non, celui-ci est faux, celui-là est parfait ».
  • Le résultat : Cette étape supplémentaire, qui ne nécessite pas de réapprendre l'IA, améliore tout le monde. Elle nettoie la liste, enlève les fausses pistes et donne de meilleures réponses. C'est comme ajouter un filtre de qualité à la fin du processus.

🏁 Conclusion : Où allons-nous ?

PinPoint nous dit que nous sommes encore loin de la perfection. Nos IA sont devenues de bons chercheurs, mais de mauvais juges. Elles trouvent ce qui ressemble à la demande, mais elles peinent à dire ce qui ne va pas.

Ce nouveau test nous force à construire des IA plus intelligentes, capables de :

  1. Dire « Non » fermement aux fausses pistes.
  2. Comprendre que les mots changent mais que le sens reste le même.
  3. Combiner plusieurs images comme un humain le ferait naturellement.

C'est un grand pas vers une intelligence visuelle qui comprend vraiment le monde, et pas juste qui devine les réponses d'un examen.