Scaling Multilingual Semantic Search in Uber Eats Delivery

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述的是 Uber Eats（优步外卖）如何升级他们的搜索系统，让顾客在搜索“披萨”、“寿司”或者“牛奶”时，能更快、更准地找到想要的东西。

想象一下，以前的 Uber Eats 搜索系统就像是一个只有死记硬背能力的老图书管理员。如果你说“我想吃辣的”，他可能只会去找名字里带“辣”字的菜，如果你用西班牙语说“pan”（面包），他可能以为你在找“平底锅”（pan 在英语里也是平底锅）。而且，餐厅、菜品和超市商品是分开管理的，就像图书馆把小说、杂志和地图分成了三个完全不同的房间，每个房间请了不同的管理员，效率很低。

这篇论文介绍的新系统，就像给这位老管理员换上了一位拥有“超级大脑”和“变形金刚”能力的智能助手。

以下是这个新系统的核心亮点，用大白话和比喻来解释：

1. 一个大脑，通吃所有东西（统一的多语言、多品类系统）

以前的做法：找餐厅用一个模型，找菜品用另一个，找超市商品再用一个。就像你要去三个不同的柜台分别排队。
现在的做法：他们训练了一个超级通用的“大脑”（基于 Qwen2 大模型）。这个大脑不仅能听懂中文、英文、西班牙语等几十种语言，还能同时理解“餐厅”、“菜品”和“超市商品”。
比喻：以前是三个只会做一道菜的大厨，现在是一个全能主厨。不管你是点“宫保鸡丁”（菜品）、“肯德基”（餐厅）还是“可乐”（超市商品），他都能立刻明白你的意图，不需要你切换柜台。

2. 像“俄罗斯套娃”一样的智能压缩（MRL 技术）

痛点：为了找得准，这个“大脑”生成的记忆（向量）非常长（1536 个数字），占内存大，传输慢。但有时候手机网络不好，或者为了省钱，我们不需要那么长的记忆。
解决方案：他们用了Matryoshka Representation Learning (MRL)，也就是“俄罗斯套娃”学习法。
比喻：想象你有一个巨大的行李箱（1536 维），里面装满了所有细节。
- 如果你赶时间（网络差），你可以只拿出最外面的小盒子（比如 256 维），里面装的是最核心的信息（比如“这是披萨”），虽然细节少点，但足够让你找到大概位置，而且速度极快。
- 如果你时间充裕，可以打开大箱子，拿出全套行李（1536 维），里面连“披萨是薄底还是厚底”、“加了什么芝士”都记得清清楚楚。
- 关键点：以前需要训练好几个不同大小的模型，现在只需要训练这一个“套娃”模型，想取多小就取多小，既省钱又灵活。

3. 从“死记硬背”到“举一反三”（训练过程）

第一阶段（海量数据浸泡）：系统先看了几亿条用户的点击和加购记录。这就像让新管理员在图书馆里看了几亿本书，虽然不知道哪本最好，但知道了大家通常喜欢点什么。这叫“领域适应”。
第二阶段（名师指点）：光看还不够，系统还需要知道哪些是“看起来像但其实是错的”。他们利用另一个强大的 AI（LLM）充当“严师”，专门挑出那些容易混淆的难题（比如“苹果”是水果还是手机？）。
比喻：第一阶段是题海战术，第二阶段是错题本特训。经过这两轮训练，这个搜索系统变得非常聪明，能分清“我想找苹果（水果）”和“我想找苹果（手机）”的区别。

4. 像“精算师”一样的打分机制（非线性打分）

传统做法：以前找东西就像用尺子量，看两个东西长得像不像（余弦相似度）。但这有时候不够准，因为“像”不代表“好”。
新做法：他们在最后加了一个智能打分器。
比喻：就像找对象，以前只看照片像不像（相似度），现在加了一个性格测试环节（神经网络打分）。即使照片有点像，如果性格（上下文）不合，也不会推荐。这个环节虽然多花了一点点时间，但能显著提高推荐的准确度。

5. 实际效果如何？

找得更准了：在六个不同的国家（包括日本、英国、美国等），搜索的召回率（找到正确答案的概率）大幅提升。比如在餐厅搜索中，准确率提升了近 30%。
省钱了：因为用了“套娃”压缩和量化技术（把数据从 32 位压缩到 8 位），存储和计算成本降低了85% 以上，但效果几乎没有损失。
用户更满意了：在线测试显示，用户下单的成功率（转化率）提高了，而且“搜不到东西”的情况减少了近 70%。

总结

这篇论文的核心就是：Uber Eats 不再用一堆笨重的、各自为战的旧系统，而是打造了一个懂多语言、懂多品类、能灵活变形（大小可调）、且经过严格特训的“超级搜索大脑”。

它不仅让顾客搜得更快、更准，还帮公司省下了巨额的服务器成本。这就好比把原本需要十个人干活的图书馆，变成了一个由一个超级 AI 管理的、高效且智能的现代化知识中心。

Scaling Multilingual Semantic Search in Uber Eats Delivery

1. 一个大脑，通吃所有东西（统一的多语言、多品类系统）

2. 像“俄罗斯套娃”一样的智能压缩（MRL 技术）

3. 从“死记硬背”到“举一反三”（训练过程）

4. 像“精算师”一样的打分机制（非线性打分）

5. 实际效果如何？

总结

Uber Eats 多语言语义搜索扩展技术总结

1. 问题背景 (Problem)

2. 方法论 (Methodology)

2.1 模型架构：双塔结构 (Two-Tower Architecture)

2.2 训练策略：两阶段微调

2.3 核心创新：套娃表示学习 (Matryoshka Representation Learning, MRL)

2.4 评分机制

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 离线评估 (Offline Evaluation)

4.2 在线 A/B 测试 (Online A/B Testing)

5. 意义与未来展望 (Significance & Future Work)

Scaling Multilingual Semantic Search in Uber Eats Delivery

1. 一个大脑，通吃所有东西（统一的多语言、多品类系统）

2. 像“俄罗斯套娃”一样的智能压缩（MRL 技术）

3. 从“死记硬背”到“举一反三”（训练过程）

4. 像“精算师”一样的打分机制（非线性打分）

5. 实际效果如何？

总结

Uber Eats 多语言语义搜索扩展技术总结

1. 问题背景 (Problem)

2. 方法论 (Methodology)

2.1 模型架构：双塔结构 (Two-Tower Architecture)

2.2 训练策略：两阶段微调

2.3 核心创新：套娃表示学习 (Matryoshka Representation Learning, MRL)

2.4 评分机制

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

4.1 离线评估 (Offline Evaluation)

4.2 在线 A/B 测试 (Online A/B Testing)

5. 意义与未来展望 (Significance & Future Work)

类似论文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities