LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie gehen in eine riesige, moderne Modebude. Sie halten ein Foto von einem tollen Kleid in der Hand, das Sie auf der Straße gesehen haben, und wollen genau dasselbe (oder ein fast identisches) im Regal finden.

Das ist das Problem, das die Forscher mit LOOKBENCH lösen wollen. Hier ist die Erklärung, wie ein einfaches Gespräch mit einem Freund:

1. Das Problem: Der verstaubte Spiegel

Bisher hatten Mode-Apps und Suchmaschinen wie einen Spiegel, der vor 10 Jahren geputzt wurde.

Die alten Tests (Benchmarks) waren statisch. Sie enthielten immer die gleichen, alten Fotos von glatten Studio-Produkten.
Die KI-Modelle haben diese alten Fotos auswendig gelernt, statt wirklich zu verstehen, wie Kleidung aussieht. Das ist wie ein Schüler, der nur die Lösungen aus dem alten Heft abschreibt, aber im echten Leben versagt, wenn die Frage anders formuliert ist.
Zudem waren viele KI-Modelle mit Daten trainiert worden, die diese alten Tests enthielten. Das ist wie ein Prüfer, der dem Schüler die Antworten vor dem Test verrät – das Ergebnis ist unfair und sagt nichts über die echte Leistung aus.

2. Die Lösung: LOOKBENCH – Der lebendige Mode-Test

Die Forscher von Gensmo.ai haben LOOKBENCH erfunden. Man kann sich das wie einen lebendigen, sich ständig erneuernden Mode-Test vorstellen.

Es ist "Live": Statt alter Fotos nutzen sie Bilder, die heute online sind (aus echten Shops und von echten Leuten auf der Straße).
Es ist "Sauber": Sie achten genau darauf, dass die KI nicht die Antworten vorher gesehen hat (keine "Kontamination"). Jedes Bild hat ein Stempel mit dem Datum, wann es gesammelt wurde.
Es ist "Ganzheitlich": Es reicht nicht, nur ein T-Shirt zu finden. LOOKBENCH testet auch, ob die KI ein ganzes Outfit versteht (Hose, Shirt, Schuhe, Tasche) und ob sie Details erkennt (z. B. "V-Ausschnitt" statt nur "Hemd").

Die vier Prüfungsarten:
Stellen Sie sich vier verschiedene Räume vor, in denen die KI getestet wird:

Der Showroom (RealStudioFlat): Perfekte Fotos von Kleidung auf weißem Hintergrund. (Leicht)
Der KI-Künstler (AIGen-Studio): Bilder, die von einer KI generiert wurden, sehen aber aus wie Studiofotos. (Mittel)
Die wilde Straße (RealStreetLook): Echte Fotos von Leuten auf der Straße, mit Hintergrund, Schatten und ganzen Outfits. (Schwer!)
Die KI-Straße (AIGen-StreetLook): KI-generierte Bilder von Straßenszenen. (Sehr schwer!)

3. Das neue Werkzeug: GensmoRetro (GR-Pro & GR-Lite)

Die Forscher haben nicht nur einen Test gebaut, sondern auch die besseren Schüler entwickelt, um diesen Test zu bestehen.

GR-Pro: Das ist der "Super-Schüler". Er ist sehr groß, sehr schlau und wurde mit Millionen von Modebildern trainiert. Er gewinnt bei fast allen Tests.
GR-Lite: Das ist der "kleine, aber feine Schüler". Er ist etwas kleiner und schneller, aber fast genauso gut. Das Tolle: Die Forscher machen ihn kostenlos und offen verfügbar, damit alle ihn nutzen können.

Wie lernen sie?
Statt nur zu sagen "Das ist ein Shirt", hat LOOKBENCH eine Art detailliertes Lexikon (eine Taxonomie). Die KI lernt nicht nur das Wort "Shirt", sondern die genauen Merkmale: "V-Ausschnitt", "kurze Ärmel", "aus Baumwolle", "gestreift".

Analogie: Ein alter KI-Modell sagt nur "Das ist ein Auto". Das neue Modell sagt: "Das ist ein roter Sportwagen mit offenem Dach und 300 PS".

4. Die Ergebnisse: Wer gewinnt?

Als sie alle Modelle gegeneinander antreten ließen (die alten Klassiker wie CLIP, DINO, und die neuen GR-Modelle), war das Ergebnis eindeutig:

Die alten, allgemeinen KI-Modelle scheiterten oft. Sie kamen bei den schwierigen Straßentests oft unter 60 % richtig. Sie verwechselten oft die Details.
Die neuen GR-Modelle (besonders GR-Pro) holten die besten Ergebnisse. Sie fanden das richtige Kleidungsstück selbst in chaotischen Straßenfotos viel genauer.
Besonders beeindruckend: Die neuen Modelle waren auch auf den alten Tests (wie Fashion200K) die besten. Das zeigt, dass sie nicht nur den neuen Test gelernt haben, sondern wirklich besser verstehen, wie Mode funktioniert.

Zusammenfassung in einem Satz

LOOKBENCH ist wie ein neuer, fairer und schwerer Mode-Test, der zeigt, dass die alten KI-Modelle oft nur auswendig gelernt haben, während die neuen Modelle (GR-Pro/GR-Lite) wirklich verstehen, wie Kleidung aussieht und wie man sie findet – egal ob im Studio oder auf der belebten Straße.

Die Forscher geben jetzt alles (den Test, die Daten und die besten Modelle) kostenlos an die Öffentlichkeit, damit alle zusammenarbeiten und die Mode-Suche für uns alle verbessern können.

LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

1. Das Problem: Der verstaubte Spiegel

2. Die Lösung: LOOKBENCH – Der lebendige Mode-Test

3. Das neue Werkzeug: GensmoRetro (GR-Pro & GR-Lite)

4. Die Ergebnisse: Wer gewinnt?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: LookBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

1. Das Problem: Der verstaubte Spiegel

2. Die Lösung: LOOKBENCH – Der lebendige Mode-Test

3. Das neue Werkzeug: GensmoRetro (GR-Pro & GR-Lite)

4. Die Ergebnisse: Wer gewinnt?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: LookBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation