Scaling Multilingual Semantic Search in Uber Eats Delivery

Dieses Paper stellt ein produktionsreifes semantisches Suchsystem für Uber Eats vor, das durch Feinabstimmung eines Qwen2-Modells auf großen Datensätzen, den Einsatz von Matryoshka-Repräsentationslernen und eine kombinierte Verlustfunktion eine einheitliche und mehrsprachige Suche über Restaurants, Gerichte und Lebensmittelgeschäfte hinweg ermöglicht und dabei die Rückrufquote in mehreren Märkten signifikant verbessert.

Bo Ling, Zheng Liu, Haoyang Chen, Divya Nagar, Luting Yang, Mehul Parsana

Veröffentlicht Wed, 11 Ma
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du betrittst eine riesige, internationale Supermarkt-Kette namens Uber Eats. In diesem Laden gibt es nicht nur Essen, sondern auch Lebensmittel, Haushaltswaren und sogar Kleidung. Tausende von Kunden kommen jeden Tag herein, um etwas Bestimmtes zu suchen.

Das Problem vor diesem Projekt war, dass der Laden wie ein chaotischer Lagerhallen-Manager arbeitete. Wenn ein Kunde nach „Pizza" suchte, schauten die alten Computer nur, ob das Wort „Pizza" auf einem Schild stand. Wenn jemand nach „Pizza" auf Spanisch suchte, verstanden sie es nicht. Und wenn jemand nach „Pizza" suchte, aber eigentlich eine Pizza-Garnitur (wie Käse oder Tomatensoße) meinte, landeten sie im falschen Gang. Es gab für jeden Bereich (Restaurants, Lebensmittel, Einzelhandel) einen separaten, dummen Mitarbeiter, der nur sein eigenes kleines Regal kannte.

Die Autoren dieses Papiers haben einen super-intelligenten, universellen Such-Assistenten gebaut, der das Chaos beendet. Hier ist, wie sie das gemacht haben, einfach erklärt:

1. Der eine große Gehirnschlag (Das Zwei-Turm-Modell)

Statt viele kleine Mitarbeiter zu haben, haben sie einen einzigen, hochintelligenten Assistenten (ein KI-Modell namens Qwen2) gebaut. Dieser Assistent hat zwei „Arme" oder Türme:

  • Der Frage-Turm: Dieser hört sich an, was der Kunde sagt (z. B. „Ich will etwas Warmes").
  • Der Produkt-Turm: Dieser kennt die Beschreibung von Millionen von Artikeln (Restaurants, Gerichte, Milch, etc.).

Beide Türme wandeln die Worte in eine unsichtbare Landkarte (eine mathematische Darstellung) um. Wenn die Landkarte des Kunden (die Absicht) und die Landkarte des Produkts (der Inhalt) sich auf der Karte nahe beieinander befinden, weiß der Assistent: „Aha! Das passt zusammen!" Egal, ob es sich um ein Restaurant in Tokio oder ein Lebensmittel in New York handelt.

2. Der „Matroschka"-Effekt (Matryoshka Representation Learning)

Das ist vielleicht das coolste Teil. Stell dir eine russische Matroschka-Puppe vor: Eine große Puppe, in der eine kleinere sitzt, in der noch eine kleinere sitzt, und so weiter.

Normalerweise müsste man für schnelle Suchen eine kleine, dumme Puppe nehmen und für präzise Suchen eine große, kluge Puppe. Das ist teuer und unpraktisch.
Diese KI hat aber eine magische Puppe gebaut. Sie kann in jeder Größe funktionieren:

  • Braucht der Assistent nur eine schnelle, grobe Antwort (um die Latenz niedrig zu halten)? Dann nimmt er nur den Kopf der Puppe (kleine Datenmenge).
  • Braucht er eine ultra-präzise Antwort für die finale Auswahl? Dann zieht er die ganze Puppe heraus (große Datenmenge).
    Das spart enorm viel Geld und Speicherplatz, weil sie nur ein Modell brauchen, das sich an jede Situation anpasst.

3. Lernen durch Beobachten und Korrigieren (Training)

Wie lernt dieser Assistent?

  • Phase 1 (Das große Rauschen): Zuerst hat er Milliarden von echten Kundenaktionen beobachtet (was wurde geklickt? Was wurde in den Warenkorb gelegt?). Das war wie ein Schüler, der durch das Lesen von Millionen Büchern lernt, was „relevant" bedeutet.
  • Phase 2 (Der strenge Lehrer): Dann kam ein noch klügerer KI-Lehrer (ein großes Sprachmodell), der schwierige Fälle geprüft hat. Zum Beispiel: „Der Kunde hat nach 'Brot' gesucht, aber 'Brot' (das Gebäck) und 'Pan' (die Pfanne) verwechselt." Der Lehrer hat dem Assistenten beigebracht, diese feinen Unterschiede zu verstehen. Das hat die Treffergenauigkeit massiv verbessert.

4. Das Ergebnis: Ein glatterer Einkauf

Was hat das gebracht?

  • Bessere Treffer: Wenn jemand nach einem bestimmten Gericht sucht, findet der Assistent es viel schneller, auch wenn der Kunde die Zutaten falsch beschreibt oder eine andere Sprache spricht.
  • Weniger „Nichts gefunden": Die Zahl der Suchen, bei denen keine Ergebnisse angezeigt wurden, ist um fast 70 % gesunken.
  • Mehr Verkäufe: Weil die Kunden schneller finden, was sie wollen, kaufen sie mehr.
  • Geringere Kosten: Durch die „Matroschka"-Puppe und das Komprimieren der Daten (Quantisierung) sparen sie viel Speicherplatz und Rechenleistung, ohne an Qualität zu verlieren.

Zusammenfassung

Stell dir vor, du hast einen Schweizer Taschenmesser-Assistenten, der nicht nur ein Messer ist, sondern auch eine Schere, einen Schraubenzieher und eine Lupe. Er versteht alle Sprachen, kennt alle Produkte im Laden und passt seine Größe an, je nachdem, ob du es eilig hast oder eine präzise Arbeit verrichten willst.

Das ist genau das, was Uber Eats jetzt hat: Ein System, das nicht mehr nur nach Wörtern sucht, sondern nach Bedeutung und Absicht, und das für die ganze Welt funktioniert.