PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Le Détective qui a trop confiance en lui

Imaginez que vous cherchez un objet précis sur Internet, par exemple : « Montrez-moi cette robe, mais en rouge et avec des manches longues ». C'est ce qu'on appelle la Recherche d'Image Composée. Vous donnez une photo de départ et une petite instruction.

Le problème, c'est que les détectives actuels (les intelligences artificielles) sont devenus très forts pour trouver quelque chose qui ressemble à la demande, mais ils sont terriblement mauvais pour éviter les fausses pistes.

L'analogie du magasin : Imaginez un vendeur qui vous demande une « chaussure de sport rouge ». Il vous en donne 10 paires.
- Le système actuel dit : « Super ! J'ai trouvé 2 paires rouges et 8 paires bleues. C'est un score parfait car j'ai trouvé les 2 rouges ! »
- Le vrai client dit : « Attendez, j'ai demandé du rouge ! Pourquoi m'avez-vous donné 8 paires bleues ? C'est du bruit ! »

Les anciens tests ne notaient que si le vendeur trouvait au moins une bonne réponse. Ils ignoraient le fait qu'il vous avait inondé de mauvaises réponses.

🎯 La Solution : Le nouveau terrain de jeu « PinPoint »

Les chercheurs de Pinterest ont créé PinPoint, un nouveau terrain de jeu géant pour tester ces détectives. C'est comme passer d'un examen scolaire facile (où il n'y a qu'une seule bonne réponse) à une mission de réalité complexe.

Voici les 5 nouveautés de ce terrain de jeu :

Plusieurs réponses justes : Dans la vraie vie, il n'y a pas qu'une seule robe rouge. Il y en a des centaines. PinPoint vérifie si le détective trouve plusieurs bonnes options, pas juste une.
Les « Fausses Pistes » (Négatifs explicites) : C'est la grande innovation. Le test inclut des images qui ressemblent beaucoup à ce que vous voulez, mais qui sont fausses (ex: une robe rouge mais en soie alors que vous vouliez du coton). Le but est de voir si le détective sait dire « Non, ce n'est pas ça » au lieu de vous la vendre.
La résistance aux mots : Si vous dites « Change la couleur en bleu » ou « Je veux ça en bleu », le détective doit comprendre que c'est la même chose. PinPoint teste 6 façons différentes de dire la même chose pour voir si l'IA panique quand on change le vocabulaire.
Le duo d'images : Parfois, vous voulez combiner deux photos : « Une robe comme celle-ci, mais avec les chaussures de celle-là ». PinPoint teste si l'IA peut faire ce mélange complexe.
L'équité : Le test vérifie si l'IA fonctionne aussi bien pour toutes les couleurs de peau et tous les styles de vie.

📉 Ce qu'ils ont découvert (Les mauvaises nouvelles)

En testant plus de 20 détectives différents, ils ont trouvé trois gros problèmes :

Le syndrome du « Oui, mais... » : Les meilleurs détectives trouvent bien les bonnes images, mais ils vous en donnent aussi beaucoup de mauvaises (environ 9 % du temps). Ils ne savent pas filtrer le bruit.
La sensibilité aux mots : Si vous changez un seul mot dans votre demande, la performance de l'IA chute de 25 %. C'est comme si un traducteur comprenait parfaitement le français, mais paniquait dès qu'on utilisait un synonyme.
Le blocage du duo : Quand on demande de combiner deux images, les IA s'effondrent. Elles perdent entre 40 % et 70 % de leur efficacité. C'est comme si elles ne pouvaient pas faire de cuisine avec deux ingrédients différents.

🛠️ L'astuce magique : Le « Révisionnaire » (Reranker)

Face à ces échecs, les chercheurs ont proposé une solution simple et gratuite : un « Révisionnaire ».

L'analogie : Imaginez que le détective (l'IA de base) fait une première liste de 100 suspects. Ensuite, un expert humain (une IA très puissante appelée MLLM) regarde cette liste et dit : « Non, celui-ci est faux, celui-là est parfait ».
Le résultat : Cette étape supplémentaire, qui ne nécessite pas de réapprendre l'IA, améliore tout le monde. Elle nettoie la liste, enlève les fausses pistes et donne de meilleures réponses. C'est comme ajouter un filtre de qualité à la fin du processus.

🏁 Conclusion : Où allons-nous ?

PinPoint nous dit que nous sommes encore loin de la perfection. Nos IA sont devenues de bons chercheurs, mais de mauvais juges. Elles trouvent ce qui ressemble à la demande, mais elles peinent à dire ce qui ne va pas.

Ce nouveau test nous force à construire des IA plus intelligentes, capables de :

Dire « Non » fermement aux fausses pistes.
Comprendre que les mots changent mais que le sens reste le même.
Combiner plusieurs images comme un humain le ferait naturellement.

C'est un grand pas vers une intelligence visuelle qui comprend vraiment le monde, et pas juste qui devine les réponses d'un examen.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La Recherche d'Images Composée (CIR - Composed Image Retrieval) permet aux utilisateurs de combiner une image de référence avec une instruction textuelle pour trouver une image cible (ex: "prenez cette robe, mais en rouge"). Bien que des progrès significatifs aient été réalisés, les benchmarks existants (comme CIRR, FashionIQ, CIRCO) présentent des limitations fondamentales qui ne reflètent pas la complexité des scénarios réels :

Absence de "Faux Positifs" explicites : Les évaluations actuelles se basent principalement sur le Recall (rappel). Un système qui retourne 2 images pertinentes et 8 distracteurs obtient le même score qu'un système retournant 10 images pertinentes, tant que l'une des images pertinentes est dans le top-K. Cela ignore la capacité du modèle à éviter les résultats non pertinents.
Hypothèse d'une seule vérité (Single Ground-Truth) : Les benchmarks supposent qu'une requête n'a qu'une seule réponse correcte, alors que dans la réalité, de nombreuses variations d'une même idée sont valides (multiplicité des réponses).
Manque de robustesse linguistique et de raisonnement multi-image : Les benchmarks ne testent pas la sensibilité aux variations de formulation (paraphrases) ni la capacité à raisonner sur plusieurs images de référence simultanément.

2. Méthodologie : Le Benchmark PinPoint

Pour combler ces lacunes, les auteurs de Pinterest ont créé PinPoint, un benchmark à grande échelle et entièrement vérifié par des humains.

A. Construction du Dataset

Échelle : 7 635 requêtes composées, 329 000 jugements de pertinence, et un corpus de 109 601 images couvrant 23 domaines diversifiés (mode, décoration, beauté, etc.).
Annotations Multiples : Chaque requête possède en moyenne 9,1 réponses positives (vérités terrain) et 32,8 négatifs explicites (distracteurs visuellement similaires mais sémantiquement incorrects).
Variations Linguistiques : Chaque requête est accompagnée de 6 paraphrases différentes pour tester la robustesse aux variations de langage.
Requêtes Multi-Images : 13,4 % des requêtes nécessitent de combiner deux images de référence (ex: "une tenue avec [robe] et [chaussures]").
Métadonnées Équitables : Intégration de données démographiques (échelle des tons de peau de Monk) pour évaluer les biais.

B. Protocole d'Évaluation

Les auteurs ont évalué plus de 20 modèles (basés sur CLIP, des méthodes spécifiques CIR, et des LLM) dans un cadre Zero-Shot (sans fine-tuning sur PinPoint). Ils ont introduit de nouvelles métriques :

$\Delta$ mAP@10 : La différence de performance entre un corpus sans négatifs explicites et un corpus avec négatifs. Un écart élevé indique une forte tendance à générer des faux positifs.
Sensibilité Linguistique : L'écart de performance (mAP) entre les différentes paraphrases d'une même requête.
Negative Recall@10 : La fréquence des faux positifs dans les 10 premiers résultats.

C. Méthode de Réordonnancement (Reranking)

Pour pallier les faiblesses des modèles existants, les auteurs proposent une méthode de réordonnancement sans entraînement (training-free) utilisant un Modèle de Langage Multimodal (MLLM) prêt à l'emploi (Qwen2.5-VL-7B).

Principe : Après une première étape de recherche par similarité (embedding), le MLLM évalue chaque candidat en répondant à la question : "L'image candidate est-elle pertinente par rapport à l'image de référence et l'instruction ?".
Sortie : Les scores de probabilité "Oui/Non" sont utilisés pour réclasser les résultats, supprimant ainsi les faux positifs sans réentraîner le modèle de base.

3. Résultats Clés

L'évaluation de 20+ modèles a révélé trois faiblesses majeures invisibles aux benchmarks précédents :

Taux élevés de Faux Positifs :
- Même les meilleures méthodes (MMRet-MLLM-S1) atteignent un mAP@10 de 28,5 %, mais 9 % du temps, elles retournent des résultats non pertinents (négatifs explicites) dans le top-10.
- Il existe un compromis (trade-off) : les modèles spécialisés CIR améliorent le mAP mais augmentent le taux de faux positifs par rapport aux modèles CLIP de base.
Fragilité Linguistique (Overfitting) :
- Les modèles performants montrent une sensibilité de 25,1 % aux paraphrases. Cela suggère qu'ils ont appris à reconnaître des motifs spécifiques des benchmarks plutôt que de comprendre la sémantique robuste.
- Paradoxalement, l'utilisation du réordonnancement (Reranker) améliore la précision mais dégrade encore plus la robustesse linguistique (augmentation de la sensibilité de 10 à 30 %).
Échec du Raisonnement Multi-Image :
- Les performances chutent drastiquement (40 % à 70 % de baisse) sur les requêtes multi-images.
- Le meilleur modèle (MMRet-S1) ne atteint qu'un mAP@10 de 0,067 sur les requêtes multi-images, contre 0,324 sur les requêtes mono-image.
Efficacité du Reranking :
- L'ajout du réordonnancement basé sur MLLM améliore systématiquement les performances de tous les modèles, réduisant le taux de faux positifs et augmentant le mAP.
- Cependant, cette méthode ne résout pas le problème du raisonnement multi-image ni la sensibilité linguistique.

4. Contributions Principales

PinPoint Benchmark : Le premier dataset CIR à grande échelle intégrant des négatifs explicites, des réponses multiples, des paraphrases et des requêtes multi-images.
Analyse Critique : Une démonstration que les benchmarks actuels masquent des échecs critiques (faux positifs, manque de robustesse, incapacité multi-image).
Méthode de Réordonnancement : Une approche training-free utilisant des MLLM commerciaux qui agit comme un correcteur universel pour améliorer la précision et réduire les faux positifs sur n'importe quel système CIR existant.
Nouveaux Protocoles : Introduction de métriques pour évaluer la robustesse linguistique, l'équité démographique et la gestion des négatifs explicites.

5. Signification et Perspectives

Ce travail marque un tournant dans l'évaluation de la recherche d'images composées. Il démontre que l'optimisation pure du Recall ou du mAP sur des benchmarks simplistes conduit à des systèmes fragiles et peu fiables en production.

Pour la recherche : Il met en évidence le besoin urgent de nouvelles architectures capables de raisonner sur plusieurs images et d'être robustes aux variations linguistiques, plutôt que de simplement apprendre des motifs de données.
Pour l'industrie : La méthode de réordonnancement proposée offre une solution immédiate et peu coûteuse pour améliorer la qualité des résultats de recherche et réduire les erreurs (faux positifs) dans les systèmes de e-commerce et de design.

En conclusion, PinPoint établit un nouveau standard pour évaluer la véritable compréhension visuelle et sémantique des modèles, poussant le domaine vers une intelligence visuelle plus humaine, robuste et équitable.