LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

本文提出了一种名为 LBM 的分层大模型自动出价框架,通过结合高层推理(LBM-Think)与低层行动生成(LBM-Act),利用双模态融合机制及离线强化微调技术 GQPO,有效解决了传统自动出价方法的可解释性差与幻觉问题,显著提升了动态广告环境下的出价策略性能与泛化能力。

Yewen Li, Zhiyi Lyu, Peng Jiang, Qingpeng Cai, Fei Pan, Bo An, Peng Jiang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LBM (Hierarchical Large Auto-Bidding Model) 的新型自动出价系统。为了让你轻松理解,我们可以把在线广告竞价想象成一场**“超级复杂的拍卖游戏”**,而广告主就是参与游戏的玩家。

1. 背景:为什么需要“自动出价”?

想象一下,你是一家大公司的广告经理,手里有一笔预算,想在互联网上买广告位(比如用户刷快手时看到的广告)。

  • 以前: 你雇佣一群经验丰富的专家,盯着屏幕,手动调整出价。
  • 现在: 互联网上的广告位每秒有数百万次拍卖,竞争极其激烈。靠人眼盯着、手动调整根本来不及,就像试图用算盘去算火箭轨道一样不现实。
  • 现状: 现在的系统大多靠“死记硬背”历史数据(强化学习),或者像照猫画虎一样生成策略。但问题在于,这些系统像个**“黑盒子”**:它们只知道怎么做,却不知道为什么。一旦遇到没见过的情况(比如突然的流量高峰),它们可能会做出反直觉的傻事,比如明明预算快超了,还拼命加价,导致钱花光了却买不到好广告。

2. 核心痛点:大模型(LLM)能直接用来出价吗?

大家知道现在很火的大语言模型(LLM,比如 ChatGPT),它们很聪明,懂逻辑,会推理。有人想:“直接用大模型来当广告经理不就行了吗?”

但直接套用有两个大麻烦:

  1. 精度不够: 广告竞价是“毫厘之争”。出价高 0.01 元可能就能赢,低 0.01 元就输了。大模型如果像写诗一样“大概猜”一个数字,很容易出错,导致钱浪费或者没买到广告。
  2. 幻觉问题: 大模型有时候会“胡言乱语”(幻觉),在需要精确计算的竞价中,这种错误是致命的。而且,大模型没专门学过广告竞价的数据,它可能不懂“预算控制”这种专业规矩。

3. 解决方案:LBM —— 一个“军师 + 执行者”的双人组合

为了解决这些问题,作者设计了一个分层(Hierarchical)的模型,就像给广告公司配了一个“军师”和一个“执行者”

🧠 第一层:LBM-Think(军师)

  • 角色: 这是一个大模型(比较聪明,但反应慢一点)。
  • 任务: 它不负责直接出价,而是负责**“思考”和“写报告”**。
  • 怎么做: 它会像人类专家一样,阅读过去一段时间的广告数据(比如:花了多少钱?剩多少预算?现在的转化率怎么样?)。然后,它会写一份**“思维链”(Chain-of-Thought, CoT)**报告。
    • 报告内容示例: “老板,现在预算还剩 95%,但广告没怎么跑出去。现在的 CPA(单次转化成本)有点低,说明我们可以大胆一点。建议提高出价参数,去抢更多流量。”
  • 特点: 它利用大模型的推理能力,理解复杂的商业逻辑,告诉系统“大方向”该往哪走。

🤖 第二层:LBM-Act(执行者)

  • 角色: 这是一个小模型(反应快,专门干活的)。
  • 任务: 它负责**“精准执行”**。
  • 怎么做: 它接收两样东西:
    1. 军师的报告(语言): 比如“提高出价”。
    2. 实时的数据(数字): 比如“当前时间、剩余预算具体数值、历史出价序列”。
  • 创新点(双嵌入机制): 为了让小模型能同时听懂“人话”(报告)和看懂“数字”(数据),作者设计了一种特殊的**“翻译器”。它把数字直接转换成模型能理解的向量,而不是把数字变成文字(那样太慢且浪费算力)。这样,小模型就能结合军师的策略和实时数据,算出一个极其精确**的出价数字。

4. 训练方法:如何防止“军师”胡说八道?

既然军师(LBM-Think)可能会“幻觉”(瞎指挥),怎么训练它呢?

  • 传统方法: 让它在真实环境里试错(在线强化学习)。但这在广告界太危险了,试错一次可能损失几万块。
  • LBM 的方法(GQPO): 作者发明了一种**“离线特训”**方法。
    • 想象一下,军师在纸上写了几种不同的策略(比如:激进型、保守型、稳健型)。
    • 然后,用另一个已经训练好的“裁判系统”(Q 值网络)来模拟:如果军师选了策略 A,最终收益会是多少?选了策略 B 呢?
    • 系统只奖励那些经过模拟验证确实有效的策略,惩罚那些瞎指挥的策略。
    • 这样,军师就在不花一分钱的情况下,学会了如何写出高质量的“思维报告”,避免了幻觉。

5. 总结:这套系统好在哪里?

  1. 分工明确: 聪明的负责思考方向(军师),灵活的负责精准操作(执行者)。既利用了大模型的智慧,又保证了出价的精度。
  2. 懂规矩: 通过“思维链”,系统能像人类一样理解“预算不能超”、“成本要控制”这些逻辑,而不是盲目地追求数字最大化。
  3. 安全高效: 不需要在真实世界里“试错”,完全在历史数据里训练,安全且成本低。
  4. 效果好: 实验证明,这套系统在广告转化率、预算控制等方面,都比传统的自动出价系统(如 Decision Transformer)和直接套用大模型的方法要强。

一句话总结:
这就好比给广告竞价系统配了一位**“懂战略的军师”(大模型写报告)和一位“神射手”**(小模型精准扣动扳机),两者配合,既避免了盲目开枪,又保证了每一发子弹都打在靶心上。