Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

本文提出了 AIGB-Pearl 方法,通过结合轨迹评估器与 KL-Lipschitz 约束的评分最大化策略,在生成式自动出价框架中实现了安全高效的离线数据外探索,从而显著提升了广告竞价性能。

Zhiyu Mou, Yiqin Lv, Miao Xu, Qi Wang, Yixiu Mao, Jinghao Chen, Qichen Ye, Chao Li, Rongquan Bai, Chuan Yu, Jian Xu, Bo Zheng

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AIGB-Pearl 的新方法,旨在帮助广告主在网络上更聪明地花钱打广告。

为了让你轻松理解,我们可以把自动竞价(Auto-bidding)想象成“在拥挤的菜市场里帮老板买最好的菜”

1. 背景:老板的难题

想象你是一家大餐厅的采购经理(广告主),老板给你一笔预算(比如 1000 元),让你去菜市场(广告平台)买食材(广告展示机会)。

  • 目标:用这 1000 元买到最多、最鲜美的食材(获得最大的广告收益 GMV)。
  • 挑战:菜价(竞价价格)每秒钟都在变,而且你不能盲目乱买,必须精打细算。

过去,大家主要用两种方法:

  1. 老派 RL 方法(像是一个急躁的学徒):它通过不断试错来学习。但在真实的菜市场里,试错成本太高(乱花钱会亏本),所以它只能看以前的“记账本”(离线数据)。但这种方法容易“学偏”,一旦遇到记账本里没有的情况,它就容易犯错,而且训练过程很不稳定,像坐过山车。
  2. 最新的生成式方法 AIGB(像是一个只会模仿的临摹画家):它通过深度学习,完美模仿以前成功的采购记录。它很稳,不会乱花钱。但它的缺点是太保守:它只会照着旧账本画,如果旧账本里没有“怎么在暴雨天买菜”的经验,它就完全不知道该怎么办,无法突破现有的水平。

2. 核心创新:AIGB-Pearl(带“质检员”的超级采购员)

这篇论文提出的 AIGB-Pearl,就是给那个“只会模仿的临摹画家”请了一位**“资深质检员”,并教它如何安全地尝试新花样**。

角色一:轨迹评估器(The Evaluator)—— 资深质检员

  • 作用:以前,临摹画家不知道画得好不好,只能凭感觉。现在,我们训练了一个“质检员”,它能看着采购员画出的“采购计划”(生成的轨迹),立刻打分:“这个计划能省多少钱?能买到多少好菜?”
  • 怎么学:质检员也是看以前的“记账本”(离线数据)学会的,但它学会了如何给未来的计划打分。

角色二:规划器(The Planner)—— 临摹画家

  • 作用:它负责生成新的采购计划。以前它只能照着旧账本画,现在它看着“质检员”的打分,试图画出得分更高的计划。
  • 关键突破:它不再只是死板地模仿,而是开始探索:“如果我稍微多花一点钱在早上买,会不会更好?”

核心魔法:KL-Lipschitz 约束 —— “安全护栏”

这是论文最厉害的地方。如果让画家随便乱画,可能会画出“花光 1000 元只买了一根葱”这种荒谬的计划(这就是越界/风险)。

  • 比喻:想象画家在一个有弹性的安全网里画画。
    • KL 约束:保证画家的画不能离“旧账本”太远,必须基于已有的成功经验。
    • Lipschitz 约束:保证画家的笔触是平滑的。如果旧账本里“买 10 斤菜”和“买 11 斤菜”的计划差别不大,那么新画出来的计划也不能突然从“买 10 斤”跳到“买 1000 斤”。
  • 效果:这个“安全网”让画家敢于在旧经验的基础上微调,去尝试那些旧账本里没有、但理论上更好的方案,同时又绝对不会画出“自杀式”的疯狂计划。

3. 为什么这很牛?(实验结果)

论文在两个地方做了测试:

  1. 模拟菜市场(仿真实验):AIGB-Pearl 比之前的所有方法都买到了更多、更好的菜,收益提升了约 4.6%。
  2. 真实淘宝市场(真实 A/B 测试):在阿里巴巴真实的广告系统里,面对成千上万的广告主,AIGB-Pearl 让总交易额(GMV)提升了 3% 以上。
    • 注:在淘宝这种体量的平台上,3% 的提升意味着每天能多赚*数百万人民币。*

4. 总结:它到底解决了什么?

  • 旧问题:以前的方法要么太保守(不敢创新,只能模仿),要么太激进(容易乱花钱,不稳定)。
  • 新方案:AIGB-Pearl 就像给 AI 装上了**“导航仪”(评估器)“安全带”(约束机制)**。
    • 它让 AI 敢于走出“舒适区”,去探索更好的策略。
    • 同时,它用数学理论保证了这种探索是安全的,不会导致灾难性的后果。

一句话总结
这就好比给一个只会照着菜谱做饭的厨师,配了一位懂行的美食评委,并告诉他:“你可以尝试改良菜谱,只要别把厨房烧了,评委觉得好吃的菜,你就大胆做!”最终,他做出了比原版菜谱更美味、更赚钱的大餐。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →