Generative Recommendation for Large-Scale Advertising

本文介绍了专为大规模广告场景设计的生成式推荐系统 GR4AD,该系统通过统一语义 ID、惰性自回归解码、价值感知监督学习与排序引导强化学习等创新技术,在 Kuaishou 成功实现高吞吐实时部署,显著提升了广告收入。

Ben Xue, Dan Liu, Lixiang Wang, Mingjie Sun, Peng Wang, Pengfei Zhang, Shaoyun Shi, Tianyu Xu, Yunhao Sha, Zhiqiang Liu, Bo Kong, Bo Wang, Hang Yang, Jieting Xue, Junhao Wang, Shengyu Wang, Shuping Hui, Wencai Ye, Xiao Lin, Yongzhi Li, Yuhang Chen, Zhihui Yin, Quan Chen, Shiyang Wen, Wenjin Wu, Han Li, Guorui Zhou, Changcheng Li, Peng Jiang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GR4AD 的系统,它是快手(Kuaishou)为了在广告推荐领域“大显身手”而专门打造的一套生成式推荐系统

为了让你更容易理解,我们可以把传统的广告推荐系统比作一个老练的图书管理员,而 GR4AD 则像是一个拥有超级大脑、能即兴创作且反应极快的“广告导演”

下面我用几个生动的比喻来拆解这篇论文的核心内容:

1. 核心挑战:为什么不能直接照搬聊天机器人(LLM)?

以前的推荐系统(DLRM)像是在查字典:用户搜什么,它就翻字典找对应的词,然后按顺序排列。
现在的生成式推荐(像大语言模型 LLM)像是在写小说:它根据上下文,一个字一个字地“生成”出最合适的广告列表。

但是,直接把写小说的 AI 拿来管广告,会遇到三个大麻烦:

  • 广告太复杂(Tokenization 问题): 广告不仅仅是文字,还有视频、商品详情、商家信息。就像让 AI 描述一个“正在卖火锅的直播间”,它不仅要懂“火锅”,还要懂“主播”、“地理位置”和“促销类型”。以前的 AI 看不懂这些复杂的“商业暗语”。
  • 目标不一样(Learning 问题): 聊天机器人追求“说得通顺”,广告系统追求“赚钱(eCPM)”和“列表排序好”。如果 AI 只是按顺序生成广告,可能第一个广告很好,但后面的一堆都很烂,导致整体收益下降。
  • 速度要求太高(Serving 问题): 聊天机器人回消息慢一点没关系,但广告系统要在100 毫秒内给几亿用户生成几十个高质量的广告选项。如果像写小说那样慢慢“一个字一个字”地生成,服务器早就累垮了。

2. GR4AD 的三大“独门绝技”

为了解决这些问题,快手团队给这个“广告导演”设计了三个核心技能:

技能一:给广告发“身份证” (UA-SID)

  • 比喻: 以前,广告就像没有名字的流浪汉,系统只能靠模糊的特征(比如“这是个卖鞋的”)来找它。现在,GR4AD 给每个广告发了一张超级详细的身份证(Semantic ID)
  • 怎么做: 它利用了一个经过特殊训练的“多模态大模型”,不仅看懂广告视频里的画面,还能听懂商家的意图(比如“这是给宝妈看的”)。然后,它把复杂的广告信息压缩成一串简短的“密码”(比如 2-1-3)。
  • 好处: 即使广告内容变了,只要“密码”没变,系统就能瞬间认出它。这解决了广告冷启动(新广告没人点)的问题,让系统能更精准地理解广告。

技能二:偷懒但聪明的“生成器” (LazyAR)

  • 比喻: 传统的生成方式是“步步为营”,生成第二个字必须等第一个字完全确定。这就像排队过安检,一个人过完,下一个才能过,效率低。
  • GR4AD 的做法: 它发明了 LazyAR(懒惰自回归)
    • 它发现,生成广告列表的前几个“字”(也就是最关键的几个广告)最难,需要全神贯注。
    • 但后面的“字”其实相对简单。于是,它让 AI 在生成前几个字时“全速运转”,但在生成后面几个字时,允许它“偷懒”:直接复用前面已经算好的部分信息,不用重新从头算起。
  • 效果: 就像把“单人排队”变成了“分组并行”,速度直接翻倍,但生成的广告质量几乎没受影响。

技能三:懂生意的“教练” (VSL & RSPO)

  • 比喻: 普通的 AI 教练只教学生“怎么把动作做标准”(模仿历史数据)。但广告系统需要的是“怎么拿金牌”(最大化收益)。
  • GR4AD 的做法:
    • VSL(价值感知监督学习): 它给每个训练样本打分。如果一个用户平时就爱买贵的东西,或者这个广告能带来高收益,教练就给它加倍的权重,让 AI 重点学习这些“高价值”案例。
    • RSPO(排序引导的强化学习): 这是一个更高级的教练。它不只看单个广告好不好,而是看整个列表排得好不好。它会模拟“如果我把这个广告放第一位,收益会是多少”,然后不断调整策略,确保生成的列表整体收益最高。
  • 动态调整: 这个教练还能根据“交通状况”(流量高峰或低谷)实时调整策略。人少的时候,让 AI 多尝试几种方案(多生成几个候选);人多的时候,优先保证速度。

3. 实际效果:真的有用吗?

快手把这个系统(GR4AD)直接上线到了拥有4 亿用户的平台上,进行了大规模的测试(A/B 测试):

  • 赚得更多: 相比以前的老系统,广告收入提升了 4.2%。这在几十亿的大盘子里,意味着巨大的真金白银。
  • 跑得更快: 尽管模型变大了,但因为用了“偷懒”技巧(LazyAR)和“动态调整”(Dynamic Beam Serving),系统依然能在 100 毫秒 内完成响应,每秒能处理 500+ 个请求。
  • 双赢局面:
    • 用户看到了更相关的广告,体验更好。
    • 小商家(中小广告主)的广告曝光量增加了 17.5%,因为他们的新广告能更快被系统“理解”并推荐。
    • 平台赚得更多,生态更健康。

总结

这篇论文讲述了一个工业级 AI 落地的精彩故事。它告诉我们:在广告这种对速度金钱极其敏感的领域,不能生搬硬套实验室里的聊天机器人技术。

GR4AD 就像是一个懂行、会偷懒、还特别会算账的超级管家

  1. 它给万物发身份证(UA-SID),一眼就能认出广告;
  2. 它懂得抓大放小(LazyAR),在关键时刻全速,次要时刻偷懒,以此换取速度;
  3. 它时刻盯着KPI(VSL & RSPO),确保生成的每一个广告列表都能帮平台多赚钱。

这就是为什么它能从实验室走向现实,并在快手这样的超级平台上大获成功的原因。