Scaling Multilingual Semantic Search in Uber Eats Delivery

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du betrittst eine riesige, internationale Supermarkt-Kette namens Uber Eats. In diesem Laden gibt es nicht nur Essen, sondern auch Lebensmittel, Haushaltswaren und sogar Kleidung. Tausende von Kunden kommen jeden Tag herein, um etwas Bestimmtes zu suchen.

Das Problem vor diesem Projekt war, dass der Laden wie ein chaotischer Lagerhallen-Manager arbeitete. Wenn ein Kunde nach „Pizza" suchte, schauten die alten Computer nur, ob das Wort „Pizza" auf einem Schild stand. Wenn jemand nach „Pizza" auf Spanisch suchte, verstanden sie es nicht. Und wenn jemand nach „Pizza" suchte, aber eigentlich eine Pizza-Garnitur (wie Käse oder Tomatensoße) meinte, landeten sie im falschen Gang. Es gab für jeden Bereich (Restaurants, Lebensmittel, Einzelhandel) einen separaten, dummen Mitarbeiter, der nur sein eigenes kleines Regal kannte.

Die Autoren dieses Papiers haben einen super-intelligenten, universellen Such-Assistenten gebaut, der das Chaos beendet. Hier ist, wie sie das gemacht haben, einfach erklärt:

1. Der eine große Gehirnschlag (Das Zwei-Turm-Modell)

Statt viele kleine Mitarbeiter zu haben, haben sie einen einzigen, hochintelligenten Assistenten (ein KI-Modell namens Qwen2) gebaut. Dieser Assistent hat zwei „Arme" oder Türme:

Der Frage-Turm: Dieser hört sich an, was der Kunde sagt (z. B. „Ich will etwas Warmes").
Der Produkt-Turm: Dieser kennt die Beschreibung von Millionen von Artikeln (Restaurants, Gerichte, Milch, etc.).

Beide Türme wandeln die Worte in eine unsichtbare Landkarte (eine mathematische Darstellung) um. Wenn die Landkarte des Kunden (die Absicht) und die Landkarte des Produkts (der Inhalt) sich auf der Karte nahe beieinander befinden, weiß der Assistent: „Aha! Das passt zusammen!" Egal, ob es sich um ein Restaurant in Tokio oder ein Lebensmittel in New York handelt.

2. Der „Matroschka"-Effekt (Matryoshka Representation Learning)

Das ist vielleicht das coolste Teil. Stell dir eine russische Matroschka-Puppe vor: Eine große Puppe, in der eine kleinere sitzt, in der noch eine kleinere sitzt, und so weiter.

Normalerweise müsste man für schnelle Suchen eine kleine, dumme Puppe nehmen und für präzise Suchen eine große, kluge Puppe. Das ist teuer und unpraktisch.
Diese KI hat aber eine magische Puppe gebaut. Sie kann in jeder Größe funktionieren:

Braucht der Assistent nur eine schnelle, grobe Antwort (um die Latenz niedrig zu halten)? Dann nimmt er nur den Kopf der Puppe (kleine Datenmenge).
Braucht er eine ultra-präzise Antwort für die finale Auswahl? Dann zieht er die ganze Puppe heraus (große Datenmenge).
Das spart enorm viel Geld und Speicherplatz, weil sie nur ein Modell brauchen, das sich an jede Situation anpasst.

3. Lernen durch Beobachten und Korrigieren (Training)

Wie lernt dieser Assistent?

Phase 1 (Das große Rauschen): Zuerst hat er Milliarden von echten Kundenaktionen beobachtet (was wurde geklickt? Was wurde in den Warenkorb gelegt?). Das war wie ein Schüler, der durch das Lesen von Millionen Büchern lernt, was „relevant" bedeutet.
Phase 2 (Der strenge Lehrer): Dann kam ein noch klügerer KI-Lehrer (ein großes Sprachmodell), der schwierige Fälle geprüft hat. Zum Beispiel: „Der Kunde hat nach 'Brot' gesucht, aber 'Brot' (das Gebäck) und 'Pan' (die Pfanne) verwechselt." Der Lehrer hat dem Assistenten beigebracht, diese feinen Unterschiede zu verstehen. Das hat die Treffergenauigkeit massiv verbessert.

4. Das Ergebnis: Ein glatterer Einkauf

Was hat das gebracht?

Bessere Treffer: Wenn jemand nach einem bestimmten Gericht sucht, findet der Assistent es viel schneller, auch wenn der Kunde die Zutaten falsch beschreibt oder eine andere Sprache spricht.
Weniger „Nichts gefunden": Die Zahl der Suchen, bei denen keine Ergebnisse angezeigt wurden, ist um fast 70 % gesunken.
Mehr Verkäufe: Weil die Kunden schneller finden, was sie wollen, kaufen sie mehr.
Geringere Kosten: Durch die „Matroschka"-Puppe und das Komprimieren der Daten (Quantisierung) sparen sie viel Speicherplatz und Rechenleistung, ohne an Qualität zu verlieren.

Zusammenfassung

Stell dir vor, du hast einen Schweizer Taschenmesser-Assistenten, der nicht nur ein Messer ist, sondern auch eine Schere, einen Schraubenzieher und eine Lupe. Er versteht alle Sprachen, kennt alle Produkte im Laden und passt seine Größe an, je nachdem, ob du es eilig hast oder eine präzise Arbeit verrichten willst.

Das ist genau das, was Uber Eats jetzt hat: Ein System, das nicht mehr nur nach Wörtern sucht, sondern nach Bedeutung und Absicht, und das für die ganze Welt funktioniert.

Scaling Multilingual Semantic Search in Uber Eats Delivery

1. Der eine große Gehirnschlag (Das Zwei-Turm-Modell)

2. Der „Matroschka"-Effekt (Matryoshka Representation Learning)

3. Lernen durch Beobachten und Korrigieren (Training)

4. Das Ergebnis: Ein glatterer Einkauf

Zusammenfassung

Titel: Skalierung der mehrsprachigen semantischen Suche bei Uber Eats Delivery

1. Problemstellung

2. Methodik und Architektur

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Scaling Multilingual Semantic Search in Uber Eats Delivery

1. Der eine große Gehirnschlag (Das Zwei-Turm-Modell)

2. Der „Matroschka"-Effekt (Matryoshka Representation Learning)

3. Lernen durch Beobachten und Korrigieren (Training)

4. Das Ergebnis: Ein glatterer Einkauf

Zusammenfassung

Titel: Skalierung der mehrsprachigen semantischen Suche bei Uber Eats Delivery

1. Problemstellung

2. Methodik und Architektur

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities