Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 AIGB-Pearl 的新方法，旨在帮助广告主在网络上更聪明地花钱打广告。

为了让你轻松理解，我们可以把自动竞价（Auto-bidding）想象成“在拥挤的菜市场里帮老板买最好的菜”。

1. 背景：老板的难题

想象你是一家大餐厅的采购经理（广告主），老板给你一笔预算（比如 1000 元），让你去菜市场（广告平台）买食材（广告展示机会）。

目标：用这 1000 元买到最多、最鲜美的食材（获得最大的广告收益 GMV）。
挑战：菜价（竞价价格）每秒钟都在变，而且你不能盲目乱买，必须精打细算。

过去，大家主要用两种方法：

老派 RL 方法（像是一个急躁的学徒）：它通过不断试错来学习。但在真实的菜市场里，试错成本太高（乱花钱会亏本），所以它只能看以前的“记账本”（离线数据）。但这种方法容易“学偏”，一旦遇到记账本里没有的情况，它就容易犯错，而且训练过程很不稳定，像坐过山车。
最新的生成式方法 AIGB（像是一个只会模仿的临摹画家）：它通过深度学习，完美模仿以前成功的采购记录。它很稳，不会乱花钱。但它的缺点是太保守：它只会照着旧账本画，如果旧账本里没有“怎么在暴雨天买菜”的经验，它就完全不知道该怎么办，无法突破现有的水平。

2. 核心创新：AIGB-Pearl（带“质检员”的超级采购员）

这篇论文提出的 AIGB-Pearl，就是给那个“只会模仿的临摹画家”请了一位**“资深质检员”，并教它如何安全地尝试新花样**。

角色一：轨迹评估器（The Evaluator）—— 资深质检员

作用：以前，临摹画家不知道画得好不好，只能凭感觉。现在，我们训练了一个“质检员”，它能看着采购员画出的“采购计划”（生成的轨迹），立刻打分：“这个计划能省多少钱？能买到多少好菜？”
怎么学：质检员也是看以前的“记账本”（离线数据）学会的，但它学会了如何给未来的计划打分。

角色二：规划器（The Planner）—— 临摹画家

作用：它负责生成新的采购计划。以前它只能照着旧账本画，现在它看着“质检员”的打分，试图画出得分更高的计划。
关键突破：它不再只是死板地模仿，而是开始探索：“如果我稍微多花一点钱在早上买，会不会更好？”

核心魔法：KL-Lipschitz 约束 —— “安全护栏”

这是论文最厉害的地方。如果让画家随便乱画，可能会画出“花光 1000 元只买了一根葱”这种荒谬的计划（这就是越界/风险）。

比喻：想象画家在一个有弹性的安全网里画画。
- KL 约束：保证画家的画不能离“旧账本”太远，必须基于已有的成功经验。
- Lipschitz 约束：保证画家的笔触是平滑的。如果旧账本里“买 10 斤菜”和“买 11 斤菜”的计划差别不大，那么新画出来的计划也不能突然从“买 10 斤”跳到“买 1000 斤”。
效果：这个“安全网”让画家敢于在旧经验的基础上微调，去尝试那些旧账本里没有、但理论上更好的方案，同时又绝对不会画出“自杀式”的疯狂计划。

3. 为什么这很牛？（实验结果）

论文在两个地方做了测试：

模拟菜市场（仿真实验）：AIGB-Pearl 比之前的所有方法都买到了更多、更好的菜，收益提升了约 4.6%。
真实淘宝市场（真实 A/B 测试）：在阿里巴巴真实的广告系统里，面对成千上万的广告主，AIGB-Pearl 让总交易额（GMV）提升了 3% 以上。
- 注：在淘宝这种体量的平台上，3% 的提升意味着每天能多赚*数百万人民币。*

4. 总结：它到底解决了什么？

旧问题：以前的方法要么太保守（不敢创新，只能模仿），要么太激进（容易乱花钱，不稳定）。
新方案：AIGB-Pearl 就像给 AI 装上了**“导航仪”（评估器）和“安全带”（约束机制）**。
- 它让 AI 敢于走出“舒适区”，去探索更好的策略。
- 同时，它用数学理论保证了这种探索是安全的，不会导致灾难性的后果。

一句话总结：
这就好比给一个只会照着菜谱做饭的厨师，配了一位懂行的美食评委，并告诉他：“你可以尝试改良菜谱，只要别把厨房烧了，评委觉得好吃的菜，你就大胆做！”最终，他做出了比原版菜谱更美味、更赚钱的大餐。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《Enhancing Generative Auto-Bidding with Offline Reward Evaluation and Policy Search》（通过离线奖励评估与策略搜索增强生成式自动出价）。

以下是对该论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

背景：自动出价（Auto-bidding）是广告主在动态竞争环境中优化广告表现的关键工具。传统的离线强化学习（Offline RL）方法虽然被广泛采用，但存在训练不稳定（由于 Bootstrap 值估计导致的误差累积）和分布外（OOD）泛化能力差的问题。
现有方案局限：最近提出的**AI 生成式出价（AIGB）**将自动出价建模为轨迹生成任务，利用生成模型（如扩散模型或 Transformer）拟合离线数据中的条件轨迹分布。AIGB 避免了 Bootstrap，训练更稳定且性能优于传统 Offline RL。
核心痛点：
1. 缺乏探索能力：AIGB 本质上是在模仿离线数据中的轨迹。当需要生成超出离线数据分布（Extrapolation）的更优轨迹时，由于缺乏明确的奖励信号引导，生成质量不可控，可能导致性能下降甚至产生高风险轨迹。
2. 缺乏理论保障：现有的 AIGB 方法在探索离线数据分布之外时，缺乏关于泛化安全性和性能边界的理论保证。
3. 奖励信号缺失：在 AIGB 的训练过程中，生成轨迹的质量（即奖励）是未知的，难以直接进行策略优化。

2. 核心方法论 (Methodology)

作者提出了 AIGB-Pearl (Planning with EvaluAtor via RL)，一种将生成式规划与策略优化相结合的新型方法。其核心思想是引入一个**轨迹评估器（Trajectory Evaluator）**来指导生成模型的探索。

2.1 核心组件

轨迹评估器 (Trajectory Evaluator)：
- 这是一个基于监督学习的模型，用于预测轨迹的质量分数 $\hat{y}_\phi(\tau)$ 。
- 它在离线数据集 $D$ 上进行训练，目标是拟合真实的轨迹质量 $y(\tau)$ 。
- 关键创新：为了确保评估器在分布外（OOD）区域的可靠性，作者对评估器施加了 Lipschitz 连续性约束，使其满足 $\sqrt{TR_m}$ -Lipschitz 性质（其中 $T$ 是时间步， $R_m$ 是最大投资回报率）。
生成式规划器 (Generative Planner)：
- 这是一个条件生成模型（如 Causal Transformer），负责生成出价轨迹。
- 它不再仅仅模仿离线数据，而是试图最大化评估器给出的分数 $\hat{y}_\phi(\tau)$ 。
KL-Lipschitz 约束的分数最大化 (KL-Lipschitz-constrained Score Maximization)：
- 为了防止规划器在评估器不可靠的区域（即远离离线数据分布的区域）进行盲目探索，作者设计了一个带约束的优化目标：
  $\max_\theta L(\theta) = \mathbb{E}_{\tau \sim p_\theta(\tau|y^*)}[\hat{y}_\phi(\tau)]$
  约束条件：
  - KL 约束：限制生成轨迹分布与离线数据分布之间的 KL 散度，确保行为克隆（Behavior Cloning）的保真度。
  - Lipschitz 约束：限制规划器对条件 $y$ 的敏感度（即 $W_1$ 距离下的 Lipschitz 常数），确保生成的轨迹不会剧烈偏离高质量轨迹的邻域。

2.2 算法实现细节

同步耦合 (Synchronous Coupling)：为了在训练过程中有效计算并约束 Wasserstein 距离（用于 Lipschitz 约束），作者提出了一种同步耦合技术。即使用相同的随机噪声序列生成不同条件下的轨迹，从而获得更紧的 Wasserstein 距离上界，使 Lipschitz 约束更易于优化。
评估器增强：为了提升评估器的准确性，引入了LLM 嵌入（提取广告主文本特征的语义信息）和成对损失函数（Pair-wise Loss），以同时优化绝对分数预测和相对排序准确性。

3. 理论贡献 (Theoretical Contributions)

论文提供了严格的理论分析，证明了该方法的安全性：

评估器偏差上界：推导了评估器偏差与规划器性能差距之间的上界。证明在满足 Lipschitz 约束和 KL 约束的情况下，规划器的真实性能 $J(\theta)$ 与评估分数 $L(\theta)$ 之间的差距是有界的。
次优性间隙界 (Sub-optimality Gap Bound)：定理 3 给出了最优解与 AIGB-Pearl 解之间的性能差距上界。该界限表明，通过控制评估器的训练误差、Lipschitz 常数以及行为克隆误差，可以确保算法在离线数据分布之外进行安全且有效的探索。
安全性保证：理论证明表明，该方法将探索限制在离线数据中高质量轨迹的“理论认证邻域”内，避免了产生高风险的异常轨迹。

4. 实验结果 (Results)

作者在模拟环境和真实的淘宝（Taobao）广告系统中进行了广泛实验。

模拟实验：
- 在 30 个不同预算水平的广告主上，AIGB-Pearl 在 GMV（商品交易总额）上相比最强大的基线（DiffBid）提升了 4.62%。
- 相比其他 Offline RL 方法（如 CQL, BCQ, IQL, MOPO 等），AIGB-Pearl 均表现出显著优势。
真实世界 A/B 测试：
- 涉及 6000 个广告主，为期 19 天。
- GMV 提升：相比 DiffBid（当前 SOTA 生成式方法）提升了 3.00%。
- ROI 提升：提升了 1.89%。
- BuyCnt（成交数）提升：提升了 2.20%。
- 成本波动：控制在 2% 以内，证明了策略的稳定性。
- TargetROAS 场景：在带有 ROI 约束的更复杂场景下，GMV 提升了 5.1%。
消融实验：
- 移除 KL 约束或 Lipschitz 约束均导致性能下降（分别下降约 1.1% 和 1.8% GMV）。
- 可视化显示，移除约束后的模型会产生“过度消耗预算”、“逆向节奏”等病态轨迹，而 AIGB-Pearl 生成的轨迹合理且高效。
评估器性能：
- 评估器在训练数据和 OOD 数据（交叉验证）上均表现出高准确性（AUC 在模拟和真实数据中分别达到 85.5% 和 75.1%），证明了其泛化能力。

5. 主要贡献与意义 (Significance)

突破性能瓶颈：首次成功将策略优化（Policy Optimization）引入生成式自动出价框架，解决了 AIGB 无法利用反馈信号在离线数据之外进行有效探索的问题。
理论安全性：提出了KL-Lipschitz 约束机制，从理论上保证了生成式模型在探索时的安全性，解决了生成式模型在 OOD 区域可能产生高风险决策的担忧。
工程落地价值：在淘宝大规模真实广告系统中验证了有效性，GMV 的显著提升（>3%）在电商广告领域意味着巨大的商业价值（数百万人民币的日增量）。
训练稳定性：相比传统 Offline RL 的 Bootstrap 机制，AIGB-Pearl 避免了训练不稳定性，收敛更平滑，更适合对稳定性要求极高的工业界场景。

总结：AIGB-Pearl 通过引入可学习的轨迹评估器和严格的数学约束，成功弥合了生成式模型（擅长模仿）与强化学习（擅长优化）之间的鸿沟，为离线自动出价问题提供了一种既安全又高效的 SOTA 解决方案。