Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Each language version is independently generated for its own context, not a direct translation.

这篇文章讲述了一个关于如何让手机应用商店（App Store）的搜索变得更聪明、更懂用户的故事。

想象一下，你走进一个拥有几百万种商品的超级大超市（App Store），你想找“做蛋糕的食谱”，但货架上的标签写得乱七八糟，或者有些冷门商品根本没人买过，导购员（搜索引擎）完全不知道把它们放哪儿。

这篇论文就是苹果团队解决这个难题的“秘密武器”。他们利用了一种叫**大语言模型（LLM）**的超级 AI，来帮人类专家“打辅助”，让搜索排名变得前所未有的精准。

下面我用几个生动的比喻来拆解他们的做法：

1. 遇到的难题：只有“销量”不够，还需要“懂行”

在应用商店里，搜索引擎主要看两样东西来决定把哪个 App 排在前面：

行为相关性（Behavioral Relevance）： 就像看销量榜。如果很多人点击、下载了这个 App，说明它受欢迎。这很容易统计，数据量巨大。
文本相关性（Textual Relevance）： 就像懂行的导购员。如果用户搜“做蛋糕”，导购员得知道“面粉”和“烤箱”是相关的，哪怕没人买过“面粉”这个 App（因为它是新上架的冷门货）。

问题出在哪？
“销量榜”数据多得像大海，但“懂行导购员”的数据少得像沙漠。请人类专家去给每个 App 和搜索词打分，既贵又慢。这就导致搜索引擎在推荐那些冷门（长尾）搜索词时，经常瞎猜，因为缺乏“懂行”的参考数据。

2. 解决方案：雇佣“超级 AI 实习生”

为了解决“懂行数据”不够的问题，团队没有选择继续疯狂招人，而是开发了一个AI 实习生（LLM）。

训练过程： 他们把人类专家过去写好的几百万份“评分作业”喂给这个 AI，让它学习人类专家的打分标准。
关键发现（大反转）： 团队原本以为，模型越大（参数越多）越聪明。结果发现，一个经过专门训练的小模型，比一个没经过训练的巨大模型还要聪明得多！
- 比喻： 就像一个刚毕业但经过严格特训的“专科生”（微调后的小模型），比一个博闻强记但没干过这行的“老教授”（巨大的预训练模型）更能准确判断 App 是否相关。
成果： 这个 AI 实习生以极低的成本，在几天内生成了几百万条高质量的“懂行评分”。这相当于把人类专家的工作量扩大了成千上万倍。

3. 如何应用：给搜索引擎“加餐”

有了这数百万条 AI 生成的“懂行评分”，团队把它们当作新的教材，重新训练了 App Store 的搜索排名系统。

双管齐下： 现在的系统既看“销量榜”（大家买什么），也看"AI 评分”（内容是否真的匹配）。
效果惊人（帕累托改进）： 以前，提升“懂行度”往往会牺牲“销量”，或者反过来。但这次，他们发现两者同时提升了！
- 比喻： 就像一辆车，以前提速就费油，费油就提速慢。现在他们给车装了新引擎，既跑得更快了，又更省油了。这在数学上被称为“帕累托前沿的向外移动”，简单说就是全面变强，没有短板。

4. 真实世界的测试：冷门搜索的救星

团队在全世界范围内进行了一次大实验（A/B 测试），把一半用户的搜索交给旧系统，另一半交给新系统。

结果： 新系统的用户下载率提升了 0.24%。
- 注：在拥有几十亿用户的 App Store，这 0.24% 的提升意味着数百万次额外的下载，价值连城。
最大的惊喜： 这种提升主要发生在**冷门搜索（长尾查询）**上。
- 比喻： 对于“怎么修老式收音机”这种没人搜过的词，旧系统因为没人买过相关 App，完全不知道推什么。但新系统因为有 AI 生成的“懂行评分”，知道这个 App 的内容确实匹配，所以把它推给了用户。
- 结论： AI 生成的标签，在人类数据稀缺的地方，发挥了最大的作用。

总结

这篇论文的核心思想就是：不要只依赖人类专家，也不要盲目迷信大模型。

通过精心训练一个小而精的 AI，让它模仿人类专家去生成海量的“评分数据”，然后把这些数据喂给搜索系统。这样做不仅解决了数据稀缺的难题，还让搜索系统在热门和冷门场景下都变得更聪明、更懂用户。

这就好比给超市请了一位不知疲倦、过目不忘的超级 AI 理货员，它把几百万个冷门货架都整理得井井有条，让顾客无论搜什么，都能第一时间找到想要的东西。

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

1. 遇到的难题：只有“销量”不够，还需要“懂行”

2. 解决方案：雇佣“超级 AI 实习生”

3. 如何应用：给搜索引擎“加餐”

4. 真实世界的测试：冷门搜索的救星

总结

论文技术总结：扩展搜索相关性——利用 LLM 生成的判断增强 App Store 排名

1. 研究背景与问题定义

2. 方法论 (Proposed Approach)

2.1 LLM 相关性标签生成

2.2 多目标排序器训练 (Multi-Objective Ranker Training)

3. 关键贡献

4. 实验结果

4.1 离线评估 (Offline Evaluation)

4.2 在线 A/B 测试 (Online A/B Test)

5. 意义与未来展望

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

1. 遇到的难题：只有“销量”不够，还需要“懂行”

2. 解决方案：雇佣“超级 AI 实习生”

3. 如何应用：给搜索引擎“加餐”

4. 真实世界的测试：冷门搜索的救星

总结

论文技术总结：扩展搜索相关性——利用 LLM 生成的判断增强 App Store 排名

1. 研究背景与问题定义

2. 方法论 (Proposed Approach)

2.1 LLM 相关性标签生成

2.2 多目标排序器训练 (Multi-Objective Ranker Training)

3. 关键贡献

4. 实验结果

4.1 离线评估 (Offline Evaluation)

4.2 在线 A/B 测试 (Online A/B Test)

5. 意义与未来展望

类似论文

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models