PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale assistent hebt die je kunt vragen om iets te zoeken in een enorme bibliotheek van miljoenen foto's. Je geeft haar een foto van een rode jas en zegt: "Maak deze blauw, maar behoud de stijl." Dit noemen we Composed Image Retrieval (samengestelde afbeeldingszoekopdracht).

Het probleem is dat de huidige assistenten vaak slordig zijn. Ze vinden misschien een blauwe jas, maar vergeten dat je ook de stijl wilde behouden, of ze vinden een blauwe jas die helemaal niet op de originele lijkt.

De auteurs van dit paper, een team van Pinterest, hebben een nieuw testexamen bedacht genaamd PinPoint. Ze zeggen: "De oude examens waren te makkelijk. We moeten de assistenten testen op hun echte vaardigheden."

Hier is hoe PinPoint werkt, vertaald in alledaagse taal:

1. De Nieuwe Test (PinPoint)

Stel je voor dat je een zoekmachine wilt testen. De oude tests waren als een meerkeuzetoets waarbij er maar één goed antwoord was. Als de machine dat ene antwoord vond, kreeg hij een 10.

PinPoint is veel strenger en realistischer:

Meerdere goede antwoorden: In het echte leven zijn er veel rode jassen die goed zijn, niet alleen één. PinPoint heeft gemiddeld 9 goede antwoorden per vraag.
Valstrikken (Hard Negatives): De test bevat foto's die er bijna goed uitzien, maar net niet. Bijvoorbeeld: je vraagt om een "rode leren handtas", en de machine vindt een "rode leren portemonnee". Dat is een valstrik. De oude tests hadden deze valstrikken niet; PinPoint heeft er duizenden.
Taalvariatie: Als je vraagt "Maak het blauw" of "Verander de kleur naar blauw", moet de machine hetzelfde resultaat geven. PinPoint test dit met 6 verschillende zinnen voor elke vraag.
Meerdere foto's: Soms wil je een outfit die bestaat uit een jurk en een schoen. PinPoint test of de machine twee foto's tegelijk kan begrijpen.

2. Wat hebben ze ontdekt? (De "Schaamte" van de AI)

Toen ze 20 verschillende AI-modellen op deze nieuwe test lieten werken, kwamen ze tot drie verrassende en wat teleurstellende conclusies:

Ze zijn te slordig met valstrikken: De beste modellen vonden vaak de juiste rode jas, maar stopten er ook een rode portemonnee tussen. Ze zijn goed in "ja" zeggen, maar slecht in "nee" zeggen tegen dingen die erop lijken.
Ze zijn te gevoelig voor woorden: Als je de vraag net iets anders stelt (bijvoorbeeld "maak het blauw" in plaats van "verander naar blauw"), zakt de prestatie van sommige modellen met wel 25%. Dit betekent dat ze de specifieke zinnen van de oude tests hebben uitgestudeerd, in plaats van echt te begrijpen wat je bedoelt.
Ze raken in de war bij meerdere foto's: Als je twee foto's geeft (een jurk en een schoen), zakken de prestaties met 40 tot 70%. Het is alsof ze twee gedachten tegelijk niet kunnen vasthouden.

3. De Oplossing: De "Slimme Editor"

Het team bedacht een slimme truc die geen nieuwe training vereist. Stel je voor dat de zoekmachine eerst een lijst met 100 resultaten maakt (de eerste ronde).

Daarna laten ze een super-slimme AI-editor (een zogenaamde MLLM, een multimodaal taalmodel) over die lijst gaan. Deze editor kijkt naar elke foto en vraagt zich af: "Past deze foto echt bij de vraag?"

Als de editor ziet dat het een valstrik is (die rode portemonnee), gooit hij die eruit.
Als hij ziet dat het een goede match is, duwt hij die naar boven.

Het resultaat: Deze "editor" werkt als een wondermiddel. Het verbetert bijna elk bestaand systeem, zelfs de slechtere modellen, en zorgt ervoor dat ze minder vaak fouten maken.

Conclusie

De boodschap van dit paper is simpel:
Tot nu toe hebben we AI-modellen getest op een simpele manier, waardoor we dachten dat ze al heel goed waren. Met PinPoint hebben we laten zien dat ze nog veel slordiger zijn dan we dachten, vooral als je ze vraagt om kritisch te zijn of meerdere dingen tegelijk te doen.

Maar er is goed nieuws: met een slimme "editor" die de resultaten nacontroleert, kunnen we deze systemen alvast veel beter maken zonder dat we ze opnieuw hoeven te trainen. Het is een stap in de richting van zoekmachines die echt begrijpen wat wij willen, en niet alleen maar woorden matchen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Composed Image Retrieval (CIR) stelt gebruikers in staat om een referentieafbeelding te combineren met natuurlijke taal instructies om een doelafbeelding te vinden (bijv. "neem deze jurk, maar maak hem rood"). Hoewel er aanzienlijke vooruitgang is geboekt, vertonen bestaande benchmarks (zoals CIRR, FashionIQ en CIRCO) fundamentele tekortkomingen die niet overeenkomen met real-world zoekscenario's:

Gebrek aan False Positives: Bestaande benchmarks evalueren voornamelijk op recall (zit er een relevant resultaat in de top-K?), maar negeren false positives. Een systeem dat 2 relevante en 8 irrelevante resultaten teruggeeft, scoort even goed als een systeem met 10 relevante resultaten.
Enige Ground Truth: Benchmarks gaan vaak uit van één correct antwoord per query, terwijl multimodale matching inherent veelvoudig is (er zijn vaak tientallen geldige matches).
Beperkte Robuustheid en Complexiteit: Er is geen evaluatie voor taalkundige variatie (paraphrases), multi-image queries (combineren van meerdere afbeeldingen) of demografische bias.

Methodologie: Het PinPoint Dataset

De auteurs introduceren PinPoint, een uitgebreide, real-world benchmark die deze gaten opvult. Het dataset bevat 7.635 queries en 329.000 menselijk geverifieerde relevantie-oordele over 23 verschillende domeinen (o.a. mode, interieur, schoonheid).

Kernkenmerken van de dataset:

Meerdere Ground Truths: Gemiddeld 9,1 correcte antwoorden per query, wat de rankingkwaliteit beter meet dan alleen de eerste hit.
Expliciete Hard Negatives: Visueel vergelijkbare distractoren (bijv. een rode portemonnee in plaats van een rode handtas) om false positives direct te meten.
Multi-Image Queries: 13,4% van de queries vereist redenering over meerdere referentieafbeeldingen (bijv. "kledingstuk X en schoenen Y").
Paraphrase Variatie: 6 verschillende herschrijvingen per query om taalkundige robuustheid te testen.
Demografische Metadata: Inclusief annotaties gebaseerd op de Monk Skin Tone schaal voor eerlijkheidsevaluatie.

Dataset Constructie:
Het proces gebruikt een hybride aanpak van Large Language Models (LLMs) en menselijke validatie. Diverse multimodale LLMs genereren instructies, positieve en negatieve kandidaten. Deze worden vervolgens gefilterd op consensus tussen modellen en gecontroleerd door menselijke beoordelaars om bias en ambiguïteit te minimaliseren.

Evaluatie en Metrieken

Naast standaard metrieken zoals mAP@10, introduceert het paper nieuwe evaluatieprotocollen:

$\Delta$ mAP@10: Het verschil in mAP tussen een corpus met en zonder hard negatives. Een lage score duidt op een model dat gevoelig is voor false positives.
Negative Recall@10: De frequentie waarmee irrelevante (maar visueel vergelijkbare) resultaten in de top-10 voorkomen.
Linguistic Sensitivity: Het bereik van prestatievariatie over de 6 paraphrases van een query.

Resultaten en Analyse

De auteurs hebben meer dan 20 modellen geëvalueerd, verdeeld over vier paradigma's (CLIP-baselines, CIR-specifieke methoden, proxy-based methoden en tekstgeneratie). De belangrijkste bevindingen zijn:

High False Positive Rates: Zelfs de beste methoden halen een mAP@10 van 28,5%, maar halen 9% van de tijd irrelevante resultaten (hard negatives) binnen de top-10.
Sensitiviteit voor Taal: Er is een aanzienlijke prestatievariatie (25,1%) afhankelijk van de formulering van de instructie. Dit suggereert dat modellen overfitten op specifieke benchmark-patronen in plaats van robuuste representaties te leren.
Slecht Multi-Image Redeneren: Modellen presteren 40% tot 70% slechter op multi-image queries vergeleken met single-image queries. Zelfs de beste modellen (MMRet-S1) dalen van ~0,32 mAP naar ~0,067 mAP.
Trade-off tussen Precision en Safety: Modellen die beter presteren op mAP (zoals MMRet) vertonen vaak een hogere Negative Recall (meer false positives) dan basismodellen zoals Meta CLIP 2.
GPT-5 Baseline: Curieus genoeg presteert een tekst-only GPT-5 retrieval baseline (zonder visuele input) beter dan veel gespecialiseerde CIR-methoden, wat wijst op de kracht van taalredenering.

Oplossing: Training-Free Reranking

Om de problemen met false positives en robuustheid aan te pakken, stellen de auteurs een training-free reranking methode voor gebaseerd op een kant-en-klare Multimodal Large Language Model (MLLM, specifiek Qwen2.5-VL-7B).

Werking: Na de initiële retrieval worden de top-kandidaten opnieuw gesorteerd door de MLLM, die de query, instructie en kandidaat-afbeelding analyseert en een "ja/nee" relevantie-score geeft.
Resultaat: Deze methode verbetert consistent de prestaties van alle onderzochte CIR-systemen, verlaagt de false positive rate en haalt zelfs de tekst-only GPT-5 baseline in op zowel mAP als negatieve onderdrukking.
Beperking: De reranker lost het probleem van multi-image queries niet op en verergert soms de taalkundige sensitiviteit.

Bijdragen en Significantie

De belangrijkste bijdragen van het paper zijn:

PinPoint Benchmark: De eerste CIR-benchmark met expliciete hard negatives, multi-image ondersteuning, paraphrase-testen en demografische metadata.
Inzicht in Zwakke Punten: Het onthullen van kritieke tekortkomingen in huidige state-of-the-art modellen (hoge false positives, gebrek aan robuustheid, falen bij multi-image) die door eerdere benchmarks onzichtbaar bleven.
Nieuwe Evaluatieprotocollen: Metrieken die rekening houden met veelvoudige antwoorden, expliciete negatieven en taalkundige variatie.
Praktische Interventie: Een bewezen, model-agnostische rerankingstrategie die direct inzetbaar is om bestaande systemen te verbeteren zonder hertraining.

Conclusie:
PinPoint toont aan dat het veld van Composed Image Retrieutal nog niet klaar is voor de realiteit. Hoewel modellen goed zijn in het vinden van een match, falen ze vaak in het vermijden van verkeerde matches en het omgaan met complexe, multi-image queries. De paper pleit voor een verschuiving van puur recall-gebaseerde evaluatie naar een meer holistische benadering die precisie, robuustheid en eerlijkheid meet, en suggereert dat toekomstige vooruitgang vereist dat modellen getraind worden op diverse datasets met expliciete negatieven en betere architecturen voor visuele compositie.

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

1. De Nieuwe Test (PinPoint)

2. Wat hebben ze ontdekt? (De "Schaamte" van de AI)

3. De Oplossing: De "Slimme Editor"

Conclusie

Probleemstelling

Methodologie: Het PinPoint Dataset

Evaluatie en Metrieken

Resultaten en Analyse

Oplossing: Training-Free Reranking

Bijdragen en Significantie

Meer zoals dit

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents