REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

Die Arbeit stellt REVISION vor, ein Framework, das durch die Kombination von offline-gestützter Implizit-Intent-Mining mit großen Modellen und einer online-optimierten Entscheidungsfindung die Diskrepanz zwischen Nutzerabsicht und Suchsystem in Taobos visuellen Suchsystemen adressiert und so die Nicht-Klick-Rate signifikant senkt.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun, Jinsong Lan, Xiaoyong Zhu, Bo Zheng

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie gehen in einen riesigen, digitalen Supermarkt (wie Taobao), um etwas zu kaufen. Sie nehmen Ihr Handy, machen ein Foto von einem Kleidungsstück oder einem Gegenstand und laden es hoch, um das Passende zu finden. Das ist die „visuelle Suche".

Das Problem ist oft: Sie machen das Foto, sehen die Ergebnisse, aber klicken auf nichts. Nichts gefällt Ihnen. Sie gehen einfach weiter. Für den Supermarkt ist das ein Rätsel: „Warum hat der Kunde nichts gekauft? War das Bild schlecht? Waren die Preise zu hoch? Hat er etwas ganz anderes gesucht?"

Bisher war der Supermarkt oft blind für diese Gründe. Er dachte nur: „Ah, das Bild sieht ähnlich aus, hier sind 10 ähnliche Produkte." Aber wenn der Kunde eigentlich wissen wollte, wie man das Teil benutzt, oder ob es in einer bestimmten Größe verfügbar ist, bekam er diese Informationen nicht.

Hier kommt REVISION ins Spiel. Man kann es sich wie einen super-intelligenten, geduldigen Supermarkt-Mitarbeiter vorstellen, der nicht nur schaut, sondern auch nachdenkt.

Wie funktioniert REVISION? (Die zwei Phasen)

Das System arbeitet in zwei Schritten, ähnlich wie ein Koch, der erst einkauft und dann kocht.

1. Die Vorbereitungsphase (Offline): Der „Detektiv"

Stellen Sie sich vor, der Supermarkt hat eine riesige Bibliothek mit Millionen von Fotos, die Kunden hochgeladen haben, aber bei denen niemand etwas gekauft hat.

  • Das alte Problem: Früher mussten Menschen diese Fotos manuell durchgehen und raten, warum sie nicht gekauft wurden. Das war langsam und ungenau.
  • Die neue Lösung (REVISION): Ein künstlicher Intelligenz-Experte (ein großes Sprachmodell) schaut sich diese „gescheiterten" Fotos an. Er denkt laut nach: „Aha! Der Kunde hat ein Foto von einem schwarzen Kleid hochgeladen, aber die Ergebnisse waren alle zu teuer. Oder: Der Kunde wollte wissen, ob das Material waschbar ist, aber das stand nirgendwo."
  • Das Ergebnis: Der KI-Experte erstellt eine Liste mit Regeln und Tipps. Er sagt dem System: „Wenn jemand ein Foto von einem Kleid hochlädt und keine Klicks bekommt, müssen wir im nächsten Schritt Preise anzeigen oder nach Material fragen." Er sortiert diese Tipps in Schubladen (Cluster), damit sie leicht zu finden sind.

2. Die Aktionsphase (Online): Der „Live-Assistent"

Jetzt ist ein echter Kunde da und lädt ein Foto hoch.

  • Das alte System: Zeigte sofort 10 ähnliche Bilder an.
  • Das REVISION-System: Der kleine, schnelle KI-Assistent (das trainierte Modell) schaut sich das Foto und die ersten Ergebnisse an. Er erinnert sich an die Tipps aus der Vorbereitungsphase.
    • Beispiel: Der Assistent merkt: „Oh, dieser Kunde sucht nach einem Goldschmuck, aber die Ergebnisse sind alle sehr ähnlich und verwirrend. Ich sollte die Ergebnisse nach Material und Preis sortieren, damit es übersichtlicher wird!"
    • Er schaltet dann automatisch verschiedene Werkzeuge ein: Er hebt Preise hervor, fasst Produktbeschreibungen zusammen oder filtert nach Größe. Er handelt wie ein Agent, der die Suche für den Kunden optimiert, bevor dieser überhaupt enttäuscht aufhört zu suchen.

Warum ist das so genial? (Die Analogie)

Stellen Sie sich vor, Sie bestellen Pizza.

  • Das alte System ist wie ein Kellner, der Ihnen einfach die Speisekarte zeigt, egal ob Sie Hunger auf Pizza, Pasta oder Salat haben. Wenn Sie nichts bestellen, denkt er: „Nächster!"
  • REVISION ist wie ein Kellner, der Sie beobachtet hat, wie Sie in der Vergangenheit bestellt haben. Wenn Sie heute ein Bild von einer Pizza hochladen, aber nicht klicken, denkt er: „Moment, letzte Woche haben Sie gesagt, Sie wollen keine scharfe Pizza. Vielleicht sind die Ergebnisse zu scharf? Ich werde Ihnen sofort die milder Optionen zeigen und fragen, ob Sie lieber eine andere Größe wollen."

Was hat das gebracht?

Die Ergebnisse sind beeindruckend:

  • Weniger frustrierte Kunden: Die Zahl der Leute, die suchen und nichts klicken, ist um fast 14% gesunken.
  • Mehr Verkäufe: Da die Kunden genau das finden, was sie suchen (auch wenn sie es nicht genau ausdrücken konnten), kaufen sie mehr. Der Umsatz (GMV) und die Klicks sind gestiegen.
  • Bessere Erfahrung: Die Kunden fühlen sich verstanden, auch wenn sie nur ein Foto geschickt haben.

Zusammenfassung

REVISION ist wie ein Spiegel für die Suchmaschine. Anstatt nur zu schauen, was die Kunden machen (Klicks), schaut es auch, was sie nicht machen (keine Klicks), und nutzt eine künstliche Intelligenz, um zu verstehen, warum. Es wandelt diese stillen Signale in aktive Hilfe um, damit der digitale Supermarkt nicht nur Produkte anzeigt, sondern echte Lösungen für die Bedürfnisse der Kunden findet.