Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 SOLARIS 的新技术,它是 Meta(Facebook 母公司)用来解决“超级智能模型”太慢、无法实时运行这一难题的巧妙方案。
为了让你轻松理解,我们可以把整个推荐系统想象成一家超级繁忙的“广告餐厅”。
1. 核心难题:大厨太慢,顾客等不起
- 现状:Meta 拥有非常强大的“基础模型”(Foundation Models),就像一位拥有绝世厨艺的“天才主厨”。他能根据顾客(用户)的口味、历史点餐记录、甚至当天的天气,精准地推荐出最完美的菜品(广告)。
- 问题:这位“天才主厨”虽然做得好吃,但做菜太慢了。他需要思考很久,计算量巨大。
- 后果:餐厅里每秒有数亿位顾客(用户)在点餐。如果每道菜都要等主厨现做,顾客早就饿跑了(延迟太高,体验极差)。
- 过去的做法:为了快,餐厅只能雇佣“学徒”(垂直模型/VMs)。学徒做菜很快,但他们没学过主厨的绝活,只能靠“死记硬背”主厨以前教过的菜谱(知识蒸馏)。但这导致学徒做出来的菜,味道只有主厨的 20%-25%,而且只能做特定的菜,不够灵活。
2. SOLARIS 的解决方案:未雨绸缪的“预言菜单”
SOLARIS 的核心思想是:既然主厨做菜慢,那我们就在他空闲的时候,提前把可能需要的菜做好,放在冰箱里备用!
这就好比餐厅引入了一个**“智能预言系统”**:
A. 猜顾客想吃什么(推测性预计算)
SOLARIS 会观察顾客的行为,猜测他们接下来最可能点什么菜。
- 比喻:系统发现你刚看了“运动鞋”,它推测你接下来可能会点“运动袜”或“跑步鞋”。
- 行动:在顾客还没下单之前,系统就悄悄指挥“天才主厨”在后台把“运动鞋 + 运动袜”这道菜的**完美配方(特征向量/Embedding)**提前算好,存进“智能冰箱”(缓存)里。
- 关键点:这个计算过程是异步的(后台悄悄做),不占用顾客点餐时的宝贵时间。
B. 只有高概率才做(验证器机制)
主厨很忙,不能把全宇宙的菜都提前做。
- 比喻:系统里有个“精明管家”(验证器模型),他会快速看一眼:“这道菜被点到的概率高吗?”
- 行动:如果概率高,就提前做;如果概率低(比如你刚买了冰箱,大概率不会马上买冰箱),就不浪费主厨的时间。这就像**“投机性解码”**(Speculative Decoding),只猜最可能发生的,猜错了也没关系,反正有备用方案。
C. 冰箱里的菜过期了怎么办?(分层特征增强)
有时候,顾客点的菜太冷门,或者是个新顾客,系统猜不到,冰箱里也没存货。这时候 SOLARIS 不会直接放弃,而是用**“组合拳”**来补救:
用户画像聚合(User-only Embedding):
- 比喻:虽然没猜中你具体要点“运动袜”,但系统记得你过去 24 小时喜欢“运动类”的东西。它把你过去喜欢的所有菜品的精华混合搅拌,做成一个“通用运动套餐”给你。
- 效果:虽然不完美,但比没有强,覆盖了 85%-90% 的情况。
找相似邻居(Similarity-based):
- 比喻:系统发现有个和你口味特别像的“邻居”(相似用户),他刚点了“运动袜”。系统直接说:“既然你们口味一样,那你也试试邻居点的这道菜吧!”
- 效果:利用“物以类聚”的原理,把覆盖范围又扩大了 30%。
3. 最终效果:既快又好吃
- 实时服务:当顾客真正下单时,系统直接从“智能冰箱”里拿出提前做好的“完美配方”,瞬间传给“学徒”(垂直模型)。学徒不用自己思考,直接照着做,速度极快(零延迟)。
- 质量提升:因为学徒用上了主厨提前算好的“绝活”,做出来的菜(广告推荐)质量大幅提升,比过去只靠死记硬背强得多。
- 商业价值:Meta 在实际应用中,这套系统让广告收入增加了 0.67%。对于 Meta 这种体量的公司,这相当于每年额外赚了 1 亿美元!
总结
SOLARIS 就像是一个给超级 AI 模型安装的“时间机器”和“智能冰箱”:
- 时间机器:把原本需要实时计算的“慢功夫”,提前到后台空闲时做完。
- 智能冰箱:把算好的结果存起来,随时取用。
- 备用方案:如果冰箱里没货,就用“混合口味”或“邻居推荐”来凑合,保证不冷场。
通过这种方法,Meta 成功地把那些原本“太贵、太慢”无法上线的超级大模型,变成了每天服务数十亿用户的实时推荐引擎,既保留了大模型的高智商,又拥有了小模型的快速度。
Each language version is independently generated for its own context, not a direct translation.
SOLARIS 技术总结:基于潜在表示的推测性卸载以实现推理扩展
1. 研究背景与问题 (Problem)
随着推荐系统(RecSys)中基础模型(Foundation Models, FMs)的快速发展,模型复杂度 unprecedented 地增加,带来了更强的个性化能力和数据利用率。然而,将这些大型基础模型直接部署到生产环境面临巨大挑战:
- 实时推理成本过高:基础模型计算复杂,难以满足实时服务的低延迟要求。
- 现有知识蒸馏的局限性:
- 转移率低且泛化性差:传统的基于软标签(Soft-label)的知识蒸馏通常只能实现 20-25% 的转移率,且预测标签与特定任务强耦合。
- 推理时知识缺失:传统蒸馏仅在训练阶段发生,无法在推理阶段(Inference Time)利用基础模型的最新知识,导致在线服务时无法共享基础模型的能力。
核心痛点:如何在保证低延迟的前提下,将昂贵的基础模型知识高效地转移给轻量级的垂直模型(Vertical Models, VMs),以提升在线推荐效果。
2. 方法论 (Methodology)
为了解决上述问题,Meta 提出了 SOLARIS(Speculative Offloading of Latent-bAsed Representation for Inference Scaling,基于潜在表示的推测性推理扩展卸载)。该框架受大语言模型(LLM)中“推测解码”(Speculative Decoding)的启发,核心思想是将昂贵的推理过程与延迟敏感的服务路径解耦。
2.1 核心架构
SOLARIS 通过以下三个关键创新实现高效的知识共享:
(1) 基于嵌入的直接转移 (Direct Embedding-based Transfer)
- 机制:不再依赖软标签,而是直接从基础模型的共享层提取用户 - 物品交互嵌入(User-Item Embeddings)。
- 优势:这些嵌入包含了丰富的、跨领域的用户行为模式,比软标签包含更多信息,显著提高了知识转移率。提取后的嵌入经过自动编码器压缩,作为额外特征输入给垂直模型。
(2) 推测性嵌入预计算 (Speculative Embedding Precomputation)
- 异步后台计算:SOLARIS 维护一个后台服务,利用基础模型异步预计算用户 - 物品对的嵌入。
- 推测机制:系统预测哪些用户 - 物品对最有可能出现在未来的请求中(基于当前垂直模型的预测分数作为验证器),并优先预计算这些高相关性对的嵌入。
- 缓存策略:预计算的嵌入存储在分布式缓存中,键为
<用户,物品>。
- TTL 机制:由于用户兴趣在短时间内(如几小时)具有稳定性,系统设置缓存有效期(TTL),确保嵌入的新鲜度同时平衡计算效率。
- 服务流程:当垂直模型进行推理时,直接从缓存读取预计算的嵌入。如果缓存未命中或过期,则使用零向量占位,并将该请求加入下一轮预计算队列。
(3) 分层特征增强 (Hierarchical Feature Enrichment)
为了解决异步预计算无法覆盖所有海量用户 - 物品对(覆盖率问题),SOLARIS 引入了两种补充策略:
- 聚合用户嵌入 (Aggregated User Embedding):当缺乏特定
<用户,物品> 嵌入时,利用该用户过去 24 小时内与其他物品的交互嵌入进行平均,生成“仅用户”嵌入。这利用了用户兴趣的短期一致性,将覆盖率提升至 85-90%。
- 基于相似度的嵌入 (Similarity-Based Embedding):利用 KNN 算法在用户聚类表中寻找与目标用户最相似的邻居。如果目标用户缺乏嵌入,则使用邻居用户 - 物品对的嵌入(通过距离加权平均或选取最相似邻居)进行填充。这进一步扩展了 30% 的有效覆盖率。
3. 关键贡献 (Key Contributions)
- 推理时知识蒸馏框架:首次将基础模型的知识共享从训练阶段扩展到推理阶段,实现了实时、无延迟开销的知识转移。
- 高转移率与通用性:通过直接转移潜在表示(Embeddings),将知识转移率从传统的 20-25% 提升至 42-44%,且适用于多任务、多标签的基础模型架构。
- 推测性预计算系统:设计了基于验证器模型的异步预计算机制,在有限的计算资源下最大化高价值样本的覆盖率。
- 分层特征补全策略:通过聚合和相似度匹配,解决了长尾物品和新用户场景下的覆盖率瓶颈,确保绝大多数请求都能获得基础模型的特征增强。
4. 实验结果 (Results)
SOLARIS 已在 Meta 的广告系统中部署,服务于数十亿次每日请求。
- 业务指标提升:
- 带来了 0.67% 的全球广告收入增长(量级约为 1 亿美元)。
- 在 10+ 个生产模型中,相对对数损失(Relative Log Loss, RLL)提升了 0.2%。
- 特征覆盖率提升了 30%。
- 具体任务表现:
- CTR(点击率):在 Facebook Feed、Reels 及 Instagram 等任务上,二分类交叉熵(BCE)损失分别降低了 0.09%、0.08% 和 0.05%。
- CVR(转化率):在站内及站外转化任务上,BCE 损失分别降低了 0.10% 和 0.05%。
- 覆盖率与性能关系:
- 特征覆盖率从 20% 提升至 50% 时,BCE 损失显著下降。
- 引入“仅用户”聚合特征后,额外带来 0.03% 的 BCE 损失改善。
- 引入基于相似度的填充后,额外带来 0.02% 的 BCE 损失改善。
5. 意义与影响 (Significance)
- 打破成本与质量的权衡:SOLARIS 证明了无需牺牲实时性,即可将超大规模基础模型的能力“下放”到在线服务中,解决了以往因成本过高而无法在线使用基础模型的难题。
- 架构创新:将 LLM 领域的推测解码思想成功迁移至推荐系统,为处理大规模、高延迟敏感性的推荐场景提供了新的范式。
- 工业界落地标杆:在 Meta 这种超大规模(数十亿日请求)的复杂广告系统中成功落地,验证了该框架在工程上的可行性和巨大的商业价值。
- 未来方向:虽然目前主要应用于最终排序阶段,但该方法为早期召回和粗排阶段的知识共享提供了探索方向(如 A2A 广告到广告的策略),有望进一步释放基础模型的潜力。
总结:SOLARIS 通过巧妙的“推测性预计算”和“分层特征增强”,成功将基础模型的强大表征能力实时注入到轻量级垂直模型中,在不增加推理延迟的前提下,显著提升了推荐系统的预测精度和商业收益。