Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 GR4AD 的系统,它是快手(Kuaishou)为了在广告推荐领域“大显身手”而专门打造的一套生成式推荐系统。
为了让你更容易理解,我们可以把传统的广告推荐系统比作一个老练的图书管理员,而 GR4AD 则像是一个拥有超级大脑、能即兴创作且反应极快的“广告导演”。
下面我用几个生动的比喻来拆解这篇论文的核心内容:
1. 核心挑战:为什么不能直接照搬聊天机器人(LLM)?
以前的推荐系统(DLRM)像是在查字典:用户搜什么,它就翻字典找对应的词,然后按顺序排列。
现在的生成式推荐(像大语言模型 LLM)像是在写小说:它根据上下文,一个字一个字地“生成”出最合适的广告列表。
但是,直接把写小说的 AI 拿来管广告,会遇到三个大麻烦:
- 广告太复杂(Tokenization 问题): 广告不仅仅是文字,还有视频、商品详情、商家信息。就像让 AI 描述一个“正在卖火锅的直播间”,它不仅要懂“火锅”,还要懂“主播”、“地理位置”和“促销类型”。以前的 AI 看不懂这些复杂的“商业暗语”。
- 目标不一样(Learning 问题): 聊天机器人追求“说得通顺”,广告系统追求“赚钱(eCPM)”和“列表排序好”。如果 AI 只是按顺序生成广告,可能第一个广告很好,但后面的一堆都很烂,导致整体收益下降。
- 速度要求太高(Serving 问题): 聊天机器人回消息慢一点没关系,但广告系统要在100 毫秒内给几亿用户生成几十个高质量的广告选项。如果像写小说那样慢慢“一个字一个字”地生成,服务器早就累垮了。
2. GR4AD 的三大“独门绝技”
为了解决这些问题,快手团队给这个“广告导演”设计了三个核心技能:
技能一:给广告发“身份证” (UA-SID)
- 比喻: 以前,广告就像没有名字的流浪汉,系统只能靠模糊的特征(比如“这是个卖鞋的”)来找它。现在,GR4AD 给每个广告发了一张超级详细的身份证(Semantic ID)。
- 怎么做: 它利用了一个经过特殊训练的“多模态大模型”,不仅看懂广告视频里的画面,还能听懂商家的意图(比如“这是给宝妈看的”)。然后,它把复杂的广告信息压缩成一串简短的“密码”(比如
2-1-3)。
- 好处: 即使广告内容变了,只要“密码”没变,系统就能瞬间认出它。这解决了广告冷启动(新广告没人点)的问题,让系统能更精准地理解广告。
技能二:偷懒但聪明的“生成器” (LazyAR)
- 比喻: 传统的生成方式是“步步为营”,生成第二个字必须等第一个字完全确定。这就像排队过安检,一个人过完,下一个才能过,效率低。
- GR4AD 的做法: 它发明了 LazyAR(懒惰自回归)。
- 它发现,生成广告列表的前几个“字”(也就是最关键的几个广告)最难,需要全神贯注。
- 但后面的“字”其实相对简单。于是,它让 AI 在生成前几个字时“全速运转”,但在生成后面几个字时,允许它“偷懒”:直接复用前面已经算好的部分信息,不用重新从头算起。
- 效果: 就像把“单人排队”变成了“分组并行”,速度直接翻倍,但生成的广告质量几乎没受影响。
技能三:懂生意的“教练” (VSL & RSPO)
- 比喻: 普通的 AI 教练只教学生“怎么把动作做标准”(模仿历史数据)。但广告系统需要的是“怎么拿金牌”(最大化收益)。
- GR4AD 的做法:
- VSL(价值感知监督学习): 它给每个训练样本打分。如果一个用户平时就爱买贵的东西,或者这个广告能带来高收益,教练就给它加倍的权重,让 AI 重点学习这些“高价值”案例。
- RSPO(排序引导的强化学习): 这是一个更高级的教练。它不只看单个广告好不好,而是看整个列表排得好不好。它会模拟“如果我把这个广告放第一位,收益会是多少”,然后不断调整策略,确保生成的列表整体收益最高。
- 动态调整: 这个教练还能根据“交通状况”(流量高峰或低谷)实时调整策略。人少的时候,让 AI 多尝试几种方案(多生成几个候选);人多的时候,优先保证速度。
3. 实际效果:真的有用吗?
快手把这个系统(GR4AD)直接上线到了拥有4 亿用户的平台上,进行了大规模的测试(A/B 测试):
- 赚得更多: 相比以前的老系统,广告收入提升了 4.2%。这在几十亿的大盘子里,意味着巨大的真金白银。
- 跑得更快: 尽管模型变大了,但因为用了“偷懒”技巧(LazyAR)和“动态调整”(Dynamic Beam Serving),系统依然能在 100 毫秒 内完成响应,每秒能处理 500+ 个请求。
- 双赢局面:
- 用户看到了更相关的广告,体验更好。
- 小商家(中小广告主)的广告曝光量增加了 17.5%,因为他们的新广告能更快被系统“理解”并推荐。
- 平台赚得更多,生态更健康。
总结
这篇论文讲述了一个工业级 AI 落地的精彩故事。它告诉我们:在广告这种对速度和金钱极其敏感的领域,不能生搬硬套实验室里的聊天机器人技术。
GR4AD 就像是一个懂行、会偷懒、还特别会算账的超级管家:
- 它给万物发身份证(UA-SID),一眼就能认出广告;
- 它懂得抓大放小(LazyAR),在关键时刻全速,次要时刻偷懒,以此换取速度;
- 它时刻盯着KPI(VSL & RSPO),确保生成的每一个广告列表都能帮平台多赚钱。
这就是为什么它能从实验室走向现实,并在快手这样的超级平台上大获成功的原因。
Each language version is independently generated for its own context, not a direct translation.
这是一篇关于快手技术团队提出的**GR4AD(Generative Recommendation for ADdvertising,面向广告的大规模生成式推荐)**系统的技术论文总结。该系统旨在解决将生成式推荐模型(Generative Recommenders)应用于大规模实时广告场景中的挑战。
以下是该论文的详细技术总结:
1. 研究背景与问题 (Problem)
尽管生成式推荐模型(基于大语言模型 LLM 范式)在扩展性和模型容量上展现出巨大潜力,但直接将其应用于大规模实时广告系统面临三大核心挑战,现有的 LLM 训练和服务方案无法直接复用:
- 广告 Token 化(Tokenization)的复杂性:
- 广告内容融合了视频属性、产品详情和 B2B 广告主元数据(如转化类型、广告账户等)。
- 现有的语义 ID(Semantic ID)方法难以捕捉非语义的业务信号(如转化目标),且缺乏端到端微调的广告专用嵌入模型。
- 学习范式的差异(Learning Paradigm):
- 广告推荐优化的是列表级指标(如 eCPM、NDCG),而非单点预测。
- 现有的 LLM 风格训练(如逐点监督)无法有效捕捉列表排序和业务价值,缺乏针对在线广告场景的列表级强化学习设计。
- 实时服务约束(Real-Time Serving):
- 广告系统需要在高并发、严格延迟(通常<100ms)下生成多个高质量候选项。
- 这与 LLM 交互式对话(生成单个回复,容忍较长延迟)截然不同。现有的自回归解码在生成多候选项时计算开销过大,难以满足实时性要求。
2. 方法论 (Methodology)
GR4AD 采用**架构、学习与服务协同设计(Co-design)**的策略,主要包含以下核心模块:
2.1 统一广告语义 ID (UA-SID)
为了解决广告内容的复杂表示问题,提出了 UA-SID:
- 统一广告嵌入 (UAE):基于多模态大模型(MLLM),通过指令微调 (Instruction Tuning) 和 共现学习 (Co-occurrence Learning) 进行端到端微调。
- 指令微调:针对直播主、普通广告主等不同场景设计特定指令,理解视频、产品和广告主信息。
- 共现学习:利用用户行为数据(如 Swing 算法)增强协同信号。
- 多粒度多分辨率量化 (MGMR RQ-Kmeans):
- 采用多分辨率码本(Multi-Resolution Codebooks),底层使用大码本捕捉主导因素,高层建模低熵残差,提高码本利用率。
- 非语义信息哈希:针对广告特有的非语义业务信号(如转化类型、账户 ID),在最后一层使用基于哈希的数值映射替代向量量化,显著降低 ID 碰撞率并提升全局平衡性。
2.2 懒惰自回归解码器 (LazyAR)
为了解决自回归生成在 Beam Search 中的效率瓶颈,提出了 LazyAR 架构:
- 核心思想:将层间依赖延迟到中间层。
- 机制:
- 前 K 层(浅层)不依赖上一级的 Token (st−1),可以并行计算所有 Beam 和所有层级,大幅减少计算量。
- 从第 K 层开始,通过融合算子注入上一级 Token 的嵌入,后续 L−K 层恢复自回归依赖。
- 优势:在保持首层(最难预测)精度的同时,利用并行计算显著提升了推理吞吐量(Inference Throughput)。
- 辅助损失:引入 MTP(Multi-Token Prediction)风格的辅助损失,强制前 K 层学习更丰富的潜在表示。
2.3 价值感知在线学习 (Value-Aware Learning)
为了对齐业务目标(如 eCPM)并适应非静态市场:
- 价值感知监督学习 (VSL):
- 在标准 Token 预测损失基础上,增加 eCPM Token 预测,让模型直接学习业务价值分布。
- 引入价值感知样本加权,根据用户长期价值和行为深度(如购买 > 点击)调整 Loss 权重。
- 排序引导的 Softmax 偏好优化 (RSPO):
- 一种**列表级(List-wise)**的强化学习算法。不同于传统的 DPO(基于成对偏好),RSPO 直接优化列表级的 NDCG 指标。
- 利用 Lambda 框架思想,构建基于奖励(eCPM)的偏好对,显式优化列表排序目标。
- 统一学习框架:设计了一个动态权重机制,根据模型当前预测与奖励信号的偏差(Rank Discrepancy),动态调整 VSL(模仿学习)和 RSPO(探索优化)的权重,实现稳定且高效的在线更新。
2.4 动态 Beam 服务 (Dynamic Beam Serving, DBS)
针对在线推理的实时性约束:
- 动态 Beam 宽度 (DBW):在解码的不同层级采用递增的 Beam 宽度(如 128-256-512),减少中间步骤的计算开销,同时保证最终候选质量。
- 流量感知自适应 Beam 搜索 (TABS):根据实时流量(QPS)动态调整 Beam 规模。在低峰期利用闲置算力扩大搜索范围以提升收益,在高峰期严格限制以保证延迟。
- 其他优化:包括结果缓存(TTL Cache)、Beam 共享 KV Cache、TopK 预剪枝以及 FP8 量化。
3. 系统部署 (Deployment)
- 闭环架构:集成了奖励系统、在线学习模块、实时索引和实时服务引擎。
- 实时索引:基于 UA-SID 的索引替代了传统的 Embedding 检索,支持秒级更新,解决了冷启动和新鲜度问题。
- 规模:已在快手广告系统全量部署,服务超过 4 亿用户。
4. 实验结果 (Results)
大规模在线 A/B 测试及消融实验表明:
- 收益提升:相比现有的 DLRM 基线,GR4AD 带来了 4.2% 的广告收入提升。
- 组件贡献:
- VSL + RSPO:相比仅使用 VSL,引入 RSPO 带来了最大的收益提升(列表级优化效果显著)。
- LazyAR:在几乎不损失精度的情况下,将推理 QPS 提升了 117%(约 2 倍),实现了高吞吐。
- DBS:通过动态调整 Beam,在低峰期进一步挖掘收益,同时保证了峰值期的延迟。
- 扩展性 (Scaling Laws):
- 模型扩展:模型参数量从 0.03B 增加到 0.32B,收入提升从 +2.13% 单调增长至 +4.43%。
- 推理扩展:在固定模型下,增加 Beam 宽度(从 128 到 1024)也能带来持续的收入增长。
- 业务指标:中小广告主的广告投放量增加 17.5%,广告转化率提升 10.17%(非活跃用户提升 7.28%)。
5. 关键贡献与意义 (Contributions & Significance)
- 首个面向大规模实时广告的生成式推荐系统:证明了生成式模型在工业界广告场景的可行性,打破了 LLM 仅用于对话或离线推荐的局限。
- 协同设计范式:提出了从 Token 化(UA-SID)、解码架构(LazyAR)到学习策略(VSL+RSPO)和 Serving(DBS)的全链路优化方案,解决了生成式模型在广告场景下的“落地难”问题。
- 业务价值对齐:通过 RSPO 和 VSL,成功将生成式模型的优化目标从单纯的“预测下一个 Token"转化为“最大化列表级商业价值(eCPM/NDCG)”。
- 效率与效果的平衡:LazyAR 和 DBS 等创新技术,使得生成式推荐在满足严格延迟预算(<100ms)和高并发(500+ QPS/L20)的同时,实现了显著的业务增长。
总结:GR4AD 不仅是一个技术突破,更是一个成熟的工业级解决方案。它展示了如何通过针对性的架构设计和算法创新,将大模型的能力转化为实际的生产力,为未来广告推荐系统的演进提供了重要的参考方向。