Generative Recommendation for Large-Scale Advertising

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GR4AD 的系统，它是快手（Kuaishou）为了在广告推荐领域“大显身手”而专门打造的一套生成式推荐系统。

为了让你更容易理解，我们可以把传统的广告推荐系统比作一个老练的图书管理员，而 GR4AD 则像是一个拥有超级大脑、能即兴创作且反应极快的“广告导演”。

下面我用几个生动的比喻来拆解这篇论文的核心内容：

1. 核心挑战：为什么不能直接照搬聊天机器人（LLM）？

以前的推荐系统（DLRM）像是在查字典：用户搜什么，它就翻字典找对应的词，然后按顺序排列。
现在的生成式推荐（像大语言模型 LLM）像是在写小说：它根据上下文，一个字一个字地“生成”出最合适的广告列表。

但是，直接把写小说的 AI 拿来管广告，会遇到三个大麻烦：

广告太复杂（Tokenization 问题）： 广告不仅仅是文字，还有视频、商品详情、商家信息。就像让 AI 描述一个“正在卖火锅的直播间”，它不仅要懂“火锅”，还要懂“主播”、“地理位置”和“促销类型”。以前的 AI 看不懂这些复杂的“商业暗语”。
目标不一样（Learning 问题）： 聊天机器人追求“说得通顺”，广告系统追求“赚钱（eCPM）”和“列表排序好”。如果 AI 只是按顺序生成广告，可能第一个广告很好，但后面的一堆都很烂，导致整体收益下降。
速度要求太高（Serving 问题）： 聊天机器人回消息慢一点没关系，但广告系统要在100 毫秒内给几亿用户生成几十个高质量的广告选项。如果像写小说那样慢慢“一个字一个字”地生成，服务器早就累垮了。

2. GR4AD 的三大“独门绝技”

为了解决这些问题，快手团队给这个“广告导演”设计了三个核心技能：

技能一：给广告发“身份证” (UA-SID)

比喻： 以前，广告就像没有名字的流浪汉，系统只能靠模糊的特征（比如“这是个卖鞋的”）来找它。现在，GR4AD 给每个广告发了一张超级详细的身份证（Semantic ID）。
怎么做： 它利用了一个经过特殊训练的“多模态大模型”，不仅看懂广告视频里的画面，还能听懂商家的意图（比如“这是给宝妈看的”）。然后，它把复杂的广告信息压缩成一串简短的“密码”（比如 2-1-3）。
好处： 即使广告内容变了，只要“密码”没变，系统就能瞬间认出它。这解决了广告冷启动（新广告没人点）的问题，让系统能更精准地理解广告。

技能二：偷懒但聪明的“生成器” (LazyAR)

比喻： 传统的生成方式是“步步为营”，生成第二个字必须等第一个字完全确定。这就像排队过安检，一个人过完，下一个才能过，效率低。
GR4AD 的做法： 它发明了 LazyAR（懒惰自回归）。
- 它发现，生成广告列表的前几个“字”（也就是最关键的几个广告）最难，需要全神贯注。
- 但后面的“字”其实相对简单。于是，它让 AI 在生成前几个字时“全速运转”，但在生成后面几个字时，允许它“偷懒”：直接复用前面已经算好的部分信息，不用重新从头算起。
效果： 就像把“单人排队”变成了“分组并行”，速度直接翻倍，但生成的广告质量几乎没受影响。

技能三：懂生意的“教练” (VSL & RSPO)

比喻： 普通的 AI 教练只教学生“怎么把动作做标准”（模仿历史数据）。但广告系统需要的是“怎么拿金牌”（最大化收益）。
GR4AD 的做法：
- VSL（价值感知监督学习）： 它给每个训练样本打分。如果一个用户平时就爱买贵的东西，或者这个广告能带来高收益，教练就给它加倍的权重，让 AI 重点学习这些“高价值”案例。
- RSPO（排序引导的强化学习）： 这是一个更高级的教练。它不只看单个广告好不好，而是看整个列表排得好不好。它会模拟“如果我把这个广告放第一位，收益会是多少”，然后不断调整策略，确保生成的列表整体收益最高。
动态调整： 这个教练还能根据“交通状况”（流量高峰或低谷）实时调整策略。人少的时候，让 AI 多尝试几种方案（多生成几个候选）；人多的时候，优先保证速度。

3. 实际效果：真的有用吗？

快手把这个系统（GR4AD）直接上线到了拥有4 亿用户的平台上，进行了大规模的测试（A/B 测试）：

赚得更多： 相比以前的老系统，广告收入提升了 4.2%。这在几十亿的大盘子里，意味着巨大的真金白银。
跑得更快： 尽管模型变大了，但因为用了“偷懒”技巧（LazyAR）和“动态调整”（Dynamic Beam Serving），系统依然能在 100 毫秒 内完成响应，每秒能处理 500+ 个请求。
双赢局面：
- 用户看到了更相关的广告，体验更好。
- 小商家（中小广告主）的广告曝光量增加了 17.5%，因为他们的新广告能更快被系统“理解”并推荐。
- 平台赚得更多，生态更健康。

总结

这篇论文讲述了一个工业级 AI 落地的精彩故事。它告诉我们：在广告这种对速度和金钱极其敏感的领域，不能生搬硬套实验室里的聊天机器人技术。

GR4AD 就像是一个懂行、会偷懒、还特别会算账的超级管家：

它给万物发身份证（UA-SID），一眼就能认出广告；
它懂得抓大放小（LazyAR），在关键时刻全速，次要时刻偷懒，以此换取速度；
它时刻盯着KPI（VSL & RSPO），确保生成的每一个广告列表都能帮平台多赚钱。

这就是为什么它能从实验室走向现实，并在快手这样的超级平台上大获成功的原因。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于快手技术团队提出的**GR4AD（Generative Recommendation for ADdvertising，面向广告的大规模生成式推荐）**系统的技术论文总结。该系统旨在解决将生成式推荐模型（Generative Recommenders）应用于大规模实时广告场景中的挑战。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

尽管生成式推荐模型（基于大语言模型 LLM 范式）在扩展性和模型容量上展现出巨大潜力，但直接将其应用于大规模实时广告系统面临三大核心挑战，现有的 LLM 训练和服务方案无法直接复用：

广告 Token 化（Tokenization）的复杂性：
- 广告内容融合了视频属性、产品详情和 B2B 广告主元数据（如转化类型、广告账户等）。
- 现有的语义 ID（Semantic ID）方法难以捕捉非语义的业务信号（如转化目标），且缺乏端到端微调的广告专用嵌入模型。
学习范式的差异（Learning Paradigm）：
- 广告推荐优化的是列表级指标（如 eCPM、NDCG），而非单点预测。
- 现有的 LLM 风格训练（如逐点监督）无法有效捕捉列表排序和业务价值，缺乏针对在线广告场景的列表级强化学习设计。
实时服务约束（Real-Time Serving）：
- 广告系统需要在高并发、严格延迟（通常<100ms）下生成多个高质量候选项。
- 这与 LLM 交互式对话（生成单个回复，容忍较长延迟）截然不同。现有的自回归解码在生成多候选项时计算开销过大，难以满足实时性要求。

2. 方法论 (Methodology)

GR4AD 采用**架构、学习与服务协同设计（Co-design）**的策略，主要包含以下核心模块：

2.1 统一广告语义 ID (UA-SID)

为了解决广告内容的复杂表示问题，提出了 UA-SID：

统一广告嵌入 (UAE)：基于多模态大模型（MLLM），通过指令微调 (Instruction Tuning) 和 共现学习 (Co-occurrence Learning) 进行端到端微调。
- 指令微调：针对直播主、普通广告主等不同场景设计特定指令，理解视频、产品和广告主信息。
- 共现学习：利用用户行为数据（如 Swing 算法）增强协同信号。
多粒度多分辨率量化 (MGMR RQ-Kmeans)：
- 采用多分辨率码本（Multi-Resolution Codebooks），底层使用大码本捕捉主导因素，高层建模低熵残差，提高码本利用率。
- 非语义信息哈希：针对广告特有的非语义业务信号（如转化类型、账户 ID），在最后一层使用基于哈希的数值映射替代向量量化，显著降低 ID 碰撞率并提升全局平衡性。

2.2 懒惰自回归解码器 (LazyAR)

为了解决自回归生成在 Beam Search 中的效率瓶颈，提出了 LazyAR 架构：

核心思想：将层间依赖延迟到中间层。
机制：
- 前 $K$ 层（浅层）不依赖上一级的 Token ( $s_{t-1}$ )，可以并行计算所有 Beam 和所有层级，大幅减少计算量。
- 从第 $K$ 层开始，通过融合算子注入上一级 Token 的嵌入，后续 $L-K$ 层恢复自回归依赖。
优势：在保持首层（最难预测）精度的同时，利用并行计算显著提升了推理吞吐量（Inference Throughput）。
辅助损失：引入 MTP（Multi-Token Prediction）风格的辅助损失，强制前 $K$ 层学习更丰富的潜在表示。

2.3 价值感知在线学习 (Value-Aware Learning)

为了对齐业务目标（如 eCPM）并适应非静态市场：

价值感知监督学习 (VSL)：
- 在标准 Token 预测损失基础上，增加 eCPM Token 预测，让模型直接学习业务价值分布。
- 引入价值感知样本加权，根据用户长期价值和行为深度（如购买 > 点击）调整 Loss 权重。
排序引导的 Softmax 偏好优化 (RSPO)：
- 一种**列表级（List-wise）**的强化学习算法。不同于传统的 DPO（基于成对偏好），RSPO 直接优化列表级的 NDCG 指标。
- 利用 Lambda 框架思想，构建基于奖励（eCPM）的偏好对，显式优化列表排序目标。
统一学习框架：设计了一个动态权重机制，根据模型当前预测与奖励信号的偏差（Rank Discrepancy），动态调整 VSL（模仿学习）和 RSPO（探索优化）的权重，实现稳定且高效的在线更新。

2.4 动态 Beam 服务 (Dynamic Beam Serving, DBS)

针对在线推理的实时性约束：

动态 Beam 宽度 (DBW)：在解码的不同层级采用递增的 Beam 宽度（如 128-256-512），减少中间步骤的计算开销，同时保证最终候选质量。
流量感知自适应 Beam 搜索 (TABS)：根据实时流量（QPS）动态调整 Beam 规模。在低峰期利用闲置算力扩大搜索范围以提升收益，在高峰期严格限制以保证延迟。
其他优化：包括结果缓存（TTL Cache）、Beam 共享 KV Cache、TopK 预剪枝以及 FP8 量化。

3. 系统部署 (Deployment)

闭环架构：集成了奖励系统、在线学习模块、实时索引和实时服务引擎。
实时索引：基于 UA-SID 的索引替代了传统的 Embedding 检索，支持秒级更新，解决了冷启动和新鲜度问题。
规模：已在快手广告系统全量部署，服务超过 4 亿用户。

4. 实验结果 (Results)

大规模在线 A/B 测试及消融实验表明：

收益提升：相比现有的 DLRM 基线，GR4AD 带来了 4.2% 的广告收入提升。
组件贡献：
- VSL + RSPO：相比仅使用 VSL，引入 RSPO 带来了最大的收益提升（列表级优化效果显著）。
- LazyAR：在几乎不损失精度的情况下，将推理 QPS 提升了 117%（约 2 倍），实现了高吞吐。
- DBS：通过动态调整 Beam，在低峰期进一步挖掘收益，同时保证了峰值期的延迟。
扩展性 (Scaling Laws)：
- 模型扩展：模型参数量从 0.03B 增加到 0.32B，收入提升从 +2.13% 单调增长至 +4.43%。
- 推理扩展：在固定模型下，增加 Beam 宽度（从 128 到 1024）也能带来持续的收入增长。
业务指标：中小广告主的广告投放量增加 17.5%，广告转化率提升 10.17%（非活跃用户提升 7.28%）。

5. 关键贡献与意义 (Contributions & Significance)

首个面向大规模实时广告的生成式推荐系统：证明了生成式模型在工业界广告场景的可行性，打破了 LLM 仅用于对话或离线推荐的局限。
协同设计范式：提出了从 Token 化（UA-SID）、解码架构（LazyAR）到学习策略（VSL+RSPO）和 Serving（DBS）的全链路优化方案，解决了生成式模型在广告场景下的“落地难”问题。
业务价值对齐：通过 RSPO 和 VSL，成功将生成式模型的优化目标从单纯的“预测下一个 Token"转化为“最大化列表级商业价值（eCPM/NDCG）”。
效率与效果的平衡：LazyAR 和 DBS 等创新技术，使得生成式推荐在满足严格延迟预算（<100ms）和高并发（500+ QPS/L20）的同时，实现了显著的业务增长。

总结：GR4AD 不仅是一个技术突破，更是一个成熟的工业级解决方案。它展示了如何通过针对性的架构设计和算法创新，将大模型的能力转化为实际的生产力，为未来广告推荐系统的演进提供了重要的参考方向。