DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Die Arbeit stellt DQE-CIR vor, eine Methode zur kompositen Bildsuche, die durch lernbare Attributgewichte und ein zielrelatives negatives Sampling die Diskriminativität von Abfrage-Embeddings verbessert, um Relevanzunterdrückung und semantische Verwirrung in bestehenden kontrastiven Lernrahmen zu überwinden.

Geon Park, Ji-Hoon Park, Seong-Whan Lee

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie suchen in einem riesigen Online-Modegeschäft nach einem T-Shirt. Sie haben ein Foto von einem T-Shirt dabei (das Referenzbild), aber Sie möchten etwas ändern: „Ich möchte dasselbe T-Shirt, aber grün und mit kurzen Ärmeln."

Das ist die Aufgabe der „Composed Image Retrieval" (CIR) – also das Auffinden von Bildern basierend auf einer Kombination aus Bild und Text.

Das Problem bei den bisherigen Methoden war, dass sie wie ein etwas verpeilter Assistent waren, der nur „Ja" oder „Nein" sagt. Wenn Sie nach einem grünen T-Shirt fragten, hat der alte Assistent alle anderen T-Shirts (auch die, die fast grün waren oder nur die Ärmel hatten) einfach als „falsch" abgestempelt und weit weg geschubst. Das führte dazu, dass er oft das falsche, aber ähnlich aussehende T-Shirt fand, weil er die feinen Unterschiede nicht verstand.

Die Forscher aus diesem Papier haben nun DQE-CIR entwickelt. Man kann sich das wie einen super-spezialisierten Mode-Experten vorstellen, der zwei neue Tricks beherrscht, um genau das zu finden, was Sie wollen.

Hier ist die Erklärung in einfachen Worten:

1. Der Trick mit den „Gewichtsknöpfen" (Lernbare Attribut-Gewichte)

Stellen Sie sich vor, Ihr Assistent trägt eine Brille mit einstellbaren Linsen. Wenn Sie sagen „grün", dreht er an einem Knopf, um die Farbe grün extrem scharf zu sehen. Wenn Sie „kurze Ärmel" sagen, dreht er an einem anderen Knopf, um die Ärmellänge zu betonen.

  • Das Problem vorher: Der Assistent sah alles gleich wichtig. Ein rotes T-Shirt mit langen Ärmeln wurde genauso stark abgelehnt wie ein grünes T-Shirt mit langen Ärmeln, obwohl das zweite viel näher an Ihrer Wunschvorstellung war.
  • Die Lösung DQE-CIR: Das System lernt automatisch, welche Attribute (Farbe, Form, Muster) in Ihrer Anfrage am wichtigsten sind. Es „gewichtet" diese Informationen. Wenn Sie nach Farbe fragen, ignoriert es fast alles andere und konzentriert sich wie ein Laser auf die Farbe. So versteht es, dass ein grünes T-Shirt mit langen Ärmeln näher an Ihrer Idee ist als ein rotes mit kurzen Ärmeln.

2. Der Trick mit dem „Zwischenbereich" (Target Relative Negative Sampling)

Stellen Sie sich vor, Sie suchen nach dem perfekten Apfel.

  • Zu einfach: Ein Stein ist offensichtlich kein Apfel. Das ist eine „leichte" negative Antwort. Der Assistent lernt davon nichts Neues, weil er das schon weiß.
  • Zu verwirrend: Ein grüner Apfel, der fast identisch mit dem gesuchten roten Apfel aussieht, aber die falsche Sorte ist. Wenn der Assistent diesen als „falsch" abstempelt, lernt er vielleicht, dass alle grünen Äpfel falsch sind – obwohl er eigentlich nur den roten will. Das nennt man „Relevanz-Unterdrückung".

DQE-CIR macht etwas Cleveres: Es sucht sich nur die perfekten „Zwischen-Äpfel" aus.

  • Es schaut sich alle Bilder an und berechnet, wie ähnlich sie Ihrem Wunschbild sind.
  • Es ignoriert die ganz offensichtlichen Fehltritte (Steine) und die fast perfekten Kopien (die falsche Sorte).
  • Es wählt stattdessen Bilder aus, die genau in der Mitte liegen: Sie sehen dem Ziel sehr ähnlich, haben aber einen kleinen, wichtigen Unterschied (z. B. die falsche Ärmellänge).

Warum ist das gut? Weil der Assistent durch den Vergleich mit diesen „mittleren" Kandidaten lernt, die feinen Unterschiede zu erkennen. Er lernt: „Aha, dieses Bild ist fast richtig, aber die Ärmel sind zu lang. Das andere ist auch fast richtig, aber die Farbe ist falsch." So wird er viel präziser.

3. Der „Ein-gegen-Eins"-Vergleich (Pairwise Learning)

Früher hat der Assistent versucht, das richtige Bild gegen alle anderen Bilder auf einmal zu vergleichen. Das war wie ein chaotischer Kampf im Ring mit 100 Gegnern gleichzeitig – da verlor er den Überblick.

DQE-CIR macht es anders: Es nimmt sich einen dieser „mittleren" Kandidaten aus Schritt 2 und stellt ihn dem richtigen Bild gegenüber.

  • Früher: „Welches von 1000 Bildern ist das Richtige?" (Verwirrend)
  • Jetzt: „Ist Bild A (das Richtige) besser als Bild B (der fast Richtige)?" (Klar und deutlich)

Durch diesen direkten, klaren Vergleich lernt das System, die Rangliste viel besser zu sortieren.

Das Ergebnis

Wenn Sie DQE-CIR jetzt fragen: „Zeig mir ein grünes T-Shirt mit kurzen Ärmeln", passiert Folgendes:

  1. Das System weiß genau, dass „Grün" und „Kurze Ärmel" die wichtigsten Knöpfe sind.
  2. Es hat gelernt, die feinen Unterschiede zwischen „fast grün" und „richtig grün" zu erkennen, indem es mit den perfekten „Zwischen-Kandidaten" trainiert wurde.
  3. Es sortiert die Ergebnisse so, dass das perfekte T-Shirt ganz oben steht, und nicht irgendein ähnliches, aber falsches T-Shirt.

Zusammenfassend:
DQE-CIR ist wie ein Assistent, der nicht mehr nur „Ja/Nein" schreit, sondern genau hinhört, welche Details Ihnen wichtig sind, und der durch kluge Vergleiche mit „fast richtigen" Kandidaten lernt, die feinen Nuancen der Welt zu verstehen. Das führt dazu, dass Sie in der digitalen Welt genau das finden, was Sie suchen, ohne sich durch unzählige falsche Treiber wühlen zu müssen.