PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du suchst nach einem perfekten Outfit für eine Party. Du hast ein Foto von einem Kleid, das dir gefällt, aber du möchtest es nicht genau so tragen. Du sagst zu deinem digitalen Assistenten: „Zeig mir dieses Kleid, aber mach es rot und füge lange Ärmel hinzu."

Das ist das Herzstück von Composed Image Retrieval (CIR) – also das Suchen nach Bildern, indem man ein Bild mit einem Textbefehl kombiniert. Bisher waren die Tests für solche KI-Systeme aber wie ein sehr einfaches Quiz, bei dem es nur eine richtige Antwort gab und man nicht sah, ob die KI auch Unsinn ausspuckt.

Die Forscher von Pinterest haben nun PinPoint vorgestellt. Das ist wie ein riesiger, realistischer Prüfungsraum für diese KIs. Hier ist die Erklärung, warum das wichtig ist und was sie herausgefunden haben, einfach erklärt:

1. Das Problem: Die alten Tests waren zu leicht

Die bisherigen Tests waren wie ein Spiel, bei dem man nur nach einem richtigen Bild suchen musste.

Das „Ein-Antwort"-Problem: Wenn du sagst „rotes Kleid", gibt es nicht nur ein rotes Kleid, sondern vielleicht 50, die alle passen. Die alten Tests sagten: „Wenn das erste Bild passt, hast du gewonnen." Aber was ist, wenn die KI danach 9 völlig falsche Bilder zeigt? Das wurde ignoriert.
Das „Falsch-Positiv"-Problem: Stell dir vor, du suchst nach einem roten Apfel. Die KI zeigt dir einen roten Ball. Das ist falsch, aber für die alten Tests war das okay, solange der rote Apfel irgendwo in den ersten 10 Ergebnissen war. PinPoint fügt absichtlich solche „Verwechslungsfallen" (rote Bälle) hinzu, um zu sehen, ob die KI sie erkennt und ignoriert.
Das „Wortwahl"-Problem: Wenn du sagst „Mach es rot" oder „Ändere die Farbe zu Rot", sollte die KI das Gleiche verstehen. Aber viele KIs sind wie ein sturer Schüler, der nur eine bestimmte Satzstellung auswendig gelernt hat und bei kleinen Änderungen ins Wanken gerät.

2. Die Lösung: PinPoint – Der große Realitäts-Check

PinPoint ist eine riesige Datenbank mit fast 8.000 Suchanfragen und über 300.000 Bewertungen, die von Menschen geprüft wurden. Es ist wie ein riesiger Spiegel, der die KIs auf Herz und Nieren prüft.

Was macht PinPoint besonders?

Mehrere richtige Antworten: Es gibt nicht nur eine „Richtige", sondern viele (im Durchschnitt 9 pro Suche).
Fallstricke: Es gibt absichtlich Bilder, die ähnlich aussehen, aber falsch sind (z. B. eine rote Tasche statt eines roten Kleides), um zu testen, ob die KI genau hinschaut.
Zwei Bilder auf einmal: Manchmal willst du ein Outfit aus einem Kleid und Schuhen zusammenstellen. PinPoint testet, ob die KI das versteht.
Sprach-Varianten: Jede Suche wird in 6 verschiedenen Sätzen formuliert, um zu testen, ob die KI flexibel ist.

3. Die Ergebnisse: Die KIs haben noch viel zu lernen

Die Forscher haben über 20 verschiedene KI-Modelle getestet. Das Ergebnis war ernüchternd, aber aufschlussreich:

Die „Trügerische Sicherheit": Die besten Modelle schienen gut zu sein, aber sobald man die „Fallstrick-Bilder" (die falschen roten Bälle) hinzufügte, versagten sie oft. Sie zeigten zu oft Dinge an, die gar nicht passten.
Die „Wortwahl-Schwäche": Wenn man die Suchanfrage nur leicht umformulierte, sank die Leistung mancher Modelle drastisch. Das bedeutet, sie haben die Antworten auswendig gelernt, statt wirklich zu verstehen.
Das „Zwei-Bild-Problem": Wenn man zwei Bilder als Basis nahm, brach die Leistung der KIs um fast 50–70 % ein. Sie können das Zusammenspiel von zwei Bildern noch nicht gut verstehen.
Der Überraschungsgast: Ein reiner Text-KI-Chatbot (GPT-5), der gar keine Bilder „sehen" kann, aber nur die Beschreibung liest, war in manchen Fällen besser als spezialisierte Bild-KIs!

4. Der neue Trick: Der „Korrektur-Coach"

Da die KIs so viele Fehler machen, haben die Forscher einen cleveren, kostenlosen Trick entwickelt. Sie nennen es einen „Training-freien Reranker".

Stell dir vor, die KI sucht zuerst nach 100 Bildern (das ist schnell, aber ungenau). Dann holt sie einen super-intelligenten Coach (eine moderne Multimodal-KI, die sowohl Bilder als auch Text versteht), der sich diese 100 Bilder ansieht und sagt: „Moment, Bild Nr. 3 ist zwar rot, aber es ist eine Tasche, kein Kleid. Bild Nr. 7 ist perfekt."

Der Coach sortiert die Liste neu, ohne dass man die KI neu trainieren muss.

Das Ergebnis: Dieser Trick hat die Leistung aller getesteten Modelle sofort verbessert. Sie zeigten weniger Fehler und fanden die richtigen Bilder besser.

Fazit

PinPoint zeigt uns, dass unsere KI-Systeme für Bildersuche noch nicht so schlau sind, wie wir denken. Sie sind gut darin, Muster zu erkennen, aber schlecht darin, genau hinzuschauen, wenn es komplex wird oder wenn man sie mit neuen Worten fragt.

Die gute Nachricht: Mit einem kleinen „Korrektur-Coach" (Reranker) können wir die Ergebnisse sofort deutlich verbessern. Aber um wirklich menschliches Verständnis zu erreichen, müssen wir die KIs noch besser darauf trainieren, nicht nur zu suchen, sondern auch zu verstehen, was nicht passt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Zusammengesetzte Bildsuche (Composed Image Retrieval, CIR) hat zwar Fortschritte gemacht, doch bestehende Benchmarks (wie CIRR, FashionIQ, CIRCO) weisen fundamentale Mängel auf, die reale Anwendungsszenarien nicht abbilden:

Fehlende False-Positive-Erkennung: Die meisten Benchmarks bewerten nur die Recall-Rate (enthält Top-K ein relevantes Bild?). Sie ignorieren, ob irrelevante, aber visuell ähnliche Bilder („Hard Negatives") fälschlicherweise als Treffer zurückgegeben werden.
Einzelne Ground-Truth: Es wird angenommen, dass es pro Query nur eine korrekte Antwort gibt. In der Realität gibt es jedoch oft viele valide Treffer (Multiplicität).
Fehlende Robustheit: Benchmarks testen nicht, wie stabil Modelle gegenüber unterschiedlichen Formulierungen derselben Absicht (Paraphrasen) sind.
Eingeschränkte Komplexität: Multi-Image-Queries (Suche basierend auf mehreren Referenzbildern) werden kaum unterstützt, obwohl Nutzer oft Merkmale aus verschiedenen Bildern kombinieren.
Fehlende Fairness-Metriken: Es gibt keine systematische Bewertung von Verzerrungen gegenüber demografischen Gruppen.

2. Methodik: Der PinPoint-Datensatz

Die Autoren stellen PinPoint vor, einen umfassenden, menschenverifizierten Benchmark mit 7.635 Queries und 329.000 Relevanzurteilen über 23 verschiedene Domänen (z. B. Mode, Einrichtung, Schönheit).

Kernmerkmale des Datensatzes:

Multiple Ground-Truths: Pro Query gibt es durchschnittlich 9,1 korrekte Antworten, um die Ranking-Qualität über den ersten Treffer hinaus zu bewerten.
Explizite Hard Negatives: Visuell sehr ähnliche, aber semantisch falsche Bilder (z. B. eine rote Brieftasche statt einer roten Handtasche) wurden als „False Positives" annotiert, um die Präzision zu testen.
Paraphrasen-Testing: Jede Query wurde in 6 verschiedene sprachliche Varianten umformuliert, um die linguistische Robustheit zu messen.
Multi-Image-Queries: 13,4 % der Queries erfordern die Kombination von Merkmalen aus zwei Referenzbildern.
Demografische Metadaten: Nutzung der „Monk Skin Tone"-Skala zur Bewertung von Fairness und Verzerrungen.

Datensatz-Erstellung:
Ein zweistufiger Prozess mit Multimodal-LLMs (GPT-5, Claude, Gemini) zur Generierung von Anweisungen und Kandidaten, gefolgt von einer strengen menschlichen Verifizierung, um Bias und Mehrdeutigkeiten zu minimieren.

3. Evaluierungs-Framework

Die Autoren bewerteten über 20 Modelle aus vier Hauptparadigmen im Zero-Shot-Modus (ohne spezifisches Fine-Tuning auf PinPoint):

CLIP-Baselines: Allgemeine Vision-Language-Encoder (z. B. Meta CLIP 2).
CIR-spezifische Methoden: Modelle wie MMRet, MagicLens, LinCIR.
Proxy-basierte Methoden: Generierung von Text-Deskriptoren durch LLMs zur Text-Suche.
Training-Free Reranking: Ein neuer Ansatz zur Nachbearbeitung.

Neue Metriken:

$\Delta$ mAP@10: Misst den Leistungsabfall, wenn Hard Negatives im Korpus hinzugefügt werden (Indikator für False-Positive-Neigung).
Negative Recall@10: Häufigkeit, mit der irrelevante Bilder in den Top-10 landen.
Linguistic Sensitivity: Die Varianz der Leistung über die 6 Paraphrasen hinweg.

4. Wichtige Ergebnisse und Erkenntnisse

Die Evaluation deckte drei signifikante Schwächen aktueller State-of-the-Art-Modelle auf:

Hohe False-Positive-Raten: Selbst die besten Modelle erreichen zwar einen mAP@10 von 28,5 %, liefern aber in 9 % der Fälle irrelevante Ergebnisse (Hard Negatives), wenn diese im Suchraum vorhanden sind. CIR-spezifische Modelle schneiden in mAP oft besser ab als reine CLIP-Baselines, haben aber eine um 25 % höhere Negative Recall-Rate (schlechtere Unterdrückung von Fehlern).
Linguistische Instabilität: Es gibt eine signifikante Diskrepanz zwischen hoher Genauigkeit und Robustheit. Die besten Modelle zeigen eine 25,1 %ige Leistungsvariation bei unterschiedlichen Paraphrasen, was auf Overfitting an spezifische Benchmark-Patterns hindeutet.
Versagen bei Multi-Image-Queries: Modelle schneiden bei Queries mit mehreren Referenzbildern 40–70 % schlechter ab als bei Einzelbildern. Der beste Wert (MMRet-S1) liegt bei nur 0,067 mAP@10 für Multi-Image-Queries.
Text-only Baseline: Ein reiner Text-basierter Ansatz (GPT-5) performte überraschend gut und übertraf viele spezialisierte CIR-Methoden, was die Komplexität der visuellen Komponente in Frage stellt.

5. Lösungsvorschlag: Training-Free Reranking

Um die Lücken zu schließen, schlagen die Autoren eine training-freie Nachrangfolge (Reranking) vor:

Methode: Ein off-the-shelf Multimodal Large Language Model (MLLM, hier Qwen2.5-VL-7B) bewertet die Kandidaten aus der ersten Suchstufe.
Prompt: „Ist das Kandidatenbild relevant? Antwort nur mit 'ja' oder 'nein'."
Ergebnis: Diese Methode verbessert konsistent die mAP@10 und reduziert die False-Positive-Rate über alle getesteten CIR-Methoden hinweg, ohne das Basis-Modell neu zu trainieren. Sie gleicht die Leistung von spezialisierten CIR-Modellen mit Text-only-LLMs aus.

6. Signifikanz und Beitrag

Neuer Standard: PinPoint ist der erste Benchmark, der explizite Negatives, Multi-Image-Reasoning und linguistische Robustheit in einem großen Maßstab vereint.
Aufdecken von Blindstellen: Die Arbeit zeigt, dass aktuelle Benchmarks Modelle als besser darstellen, als sie in der Praxis sind (insbesondere bei der Vermeidung von Fehlern und der Generalisierung).
Richtungsweisend: Die Ergebnisse deuten darauf hin, dass zukünftige Forschung nicht nur auf die Steigerung der Trefferquote (Recall), sondern auf die Vermeidung von Fehlern (Precision/Safety) und die Entwicklung robusterer Architekturen für Multi-Image- und linguistische Variationen fokussieren muss.
Open Source: Der gesamte Datensatz, die Indizes und der Evaluierungscode werden veröffentlicht, um die Community zu befähigen, diese neuen Herausforderungen anzugehen.

Zusammenfassend stellt PinPoint einen kritischen Schritt dar, um CIR-Systeme von reinen akademischen Benchmarks hin zu zuverlässigen, realwelttauglichen Anwendungen zu führen.

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

1. Das Problem: Die alten Tests waren zu leicht

2. Die Lösung: PinPoint – Der große Realitäts-Check

3. Die Ergebnisse: Die KIs haben noch viel zu lernen

4. Der neue Trick: Der „Korrektur-Coach"

Fazit

1. Problemstellung

2. Methodik: Der PinPoint-Datensatz

3. Evaluierungs-Framework

4. Wichtige Ergebnisse und Erkenntnisse

5. Lösungsvorschlag: Training-Free Reranking

6. Signifikanz und Beitrag

Mehr davon

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics