SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion

本文提出了 SEGB 框架,通过结合局部自回归扩散模型生成短期未来状态以增强规划能力,并利用价值引导策略在离线数据上实现自我进化,从而在无需外部干预的情况下显著提升了在线广告自动竞价的性能与商业价值。

Yulong Gao, Wan Jiang, Mingzhe Cao, Xuepu Wang, Zeyu Pan, Haonan Yang, Ye Liu, Xin Yang

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SEGB 的新技术,它是为了解决在线广告自动竞价(Auto-bidding)中的难题而设计的。

为了让你轻松理解,我们可以把“广告竞价”想象成一场在高速公路上进行的“极限赛车游戏”

1. 背景:赛车手的困境

在广告世界里,广告主(比如卖鞋的品牌)想在用户刷手机时展示广告。但这就像赛车:

  • 路况瞬息万变:下一秒可能突然堵车(流量变少),或者突然有对手超车(竞争对手出价更高)。
  • 预算有限:你只有 100 块钱油费(预算),必须精打细算,跑完全程。
  • 目标明确:你要在油费耗尽前,尽可能多拉乘客(获得转化/点击)。

以前的“自动竞价”系统就像是一个只会看后视镜的赛车手。它只能根据刚才发生了什么(过去的点击、花费)来调整速度。它不知道下一秒前面会不会有坑,也不知道油还能撑多久。这导致它要么开得太快把油烧光了,要么太保守错过了乘客。

2. SEGB 是什么?

SEGB 是一个拥有“上帝视角”和“自我进化”能力的超级赛车手。它的名字全称是“自进化生成式竞价”,听起来很复杂,其实由三个核心绝招组成:

第一招:水晶球(局部自回归扩散模型 LAD)

  • 传统做法:以前的系统像盲人摸象,只能猜大概。
  • SEGB 的做法:它手里有一个水晶球。这个水晶球不是瞎猜的,而是基于过去的历史数据,一步步、有逻辑地推演未来的路况。
    • 它不会一次性预测整条路(那样容易出错),而是像下棋一样,先预测“下一步”会发生什么(比如:下一秒预算还剩多少?),再预测“再下一步”。
    • 比喻:就像你开车时,不仅看后视镜,还能精准地预判“前方 50 米有个减速带,再前方 100 米有个急转弯”。这让赛车手能提前减速或加速,而不是等到撞上了才反应。

第二招:带导航的赛车手(带有“下一状态感知”的决策 Transformer)

  • 传统做法:以前的赛车手只知道“我要跑完全程”这个大目标,但不知道具体每一步该怎么踩油门。
  • SEGB 的做法:它把刚才那个水晶球看到的“下一步路况”,直接告诉赛车手。
    • 比喻:赛车手不仅知道终点在哪,还知道“前方 50 米有减速带”。于是,他不再盲目加速,而是主动在减速带前轻踩刹车。这种“未雨绸缪”的能力,让他能更聪明地分配每一滴油。

第三招:自我特训(离线策略进化 GRPO)

这是最厉害的一点。

  • 传统做法:以前的系统就像背题库的学生,只能模仿以前优秀赛车手的操作。如果题库里没有“雨天超车”的题,它就不会开。
  • SEGB 的做法:它在不跑真车(不需要在线测试,省钱又安全)的情况下,利用静态数据进行了自我特训
    • 它像一个天才教练,拿着以前的比赛录像,在脑海里模拟了成千上万次:“如果当时我那样开,结果会不会更好?”
    • 通过这种自我进化,它发现了一些以前优秀赛车手都没想到的“骚操作”(更优的策略),并且把这些策略学到了骨子里。
    • 比喻:它不需要去赛道上撞墙来学习,而是在脑海里通过“模拟演练”就进化成了车神。

3. 结果如何?

这篇论文不仅是在电脑上跑分,还真的在京东(JD.com)的广告平台上进行了大规模实战测试

  • 成绩:SEGB 比现有的最先进系统都要强。
  • 实战效果:在真实的广告大战中,它帮助广告主节省了成本,同时获得了更多的转化。具体来说,在“目标成本”这个关键指标上,它提升了 10.19%
  • 简单说:花同样的钱,以前能买到 100 个客户,现在能买到 110 个;或者买同样的客户,以前花 100 块,现在只花 90 块。

总结

SEGB 就是一个“会看未来、会主动规划、还能自我修炼”的超级竞价系统

它不再被动地跟着市场跑,而是像一位经验丰富的老船长:

  1. 看未来(LAD):提前知道风暴在哪里。
  2. 做规划(Next-State-Aware):根据风暴调整航向。
  3. 自我进化(GRPO):在脑海里不断复盘,变得比任何老船长都强。

这项技术证明了,即使没有实时的试错机会,通过聪明的算法和“自我进化”,也能在复杂的商业环境中找到最优解。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →