Knowledge-informed Bidding with Dual-process Control for Online Advertising

本文提出了 KBD 方法,通过将人类专家知识作为归纳偏置嵌入机器学习、利用决策 Transformer 进行全局序列优化,并结合基于 PID 的快速规则系统与决策 Transformer 的慢速系统实现双过程控制,从而有效解决了现有黑盒模型在数据稀疏、长程依赖及分布外场景下泛化能力不足的问题。

Huixiang Luo, Longyu Gao, Yaqi Liu, Qianqian Chen, Pingchun Huang, Tianning Li

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 KBD 的新方法,专门用来帮广告主在网络上“更聪明地花钱买广告位”。

想象一下,你是一家大公司的市场总监,手里有一笔预算,需要在一天内买很多广告位,目标是花最少的钱,换来最多的销售额(GMV)。

以前的做法就像是一个只会看历史数据的“黑盒机器人”:它翻看过去的账本,发现“昨天下午 3 点买广告效果很好”,于是今天下午 3 点就自动去抢。但这有个大问题:如果今天突然有个大促销,或者天气变了,这个机器人就懵了,因为它不懂“常识”,只会死记硬背。

KBD 就像给这个机器人装上了**“人类专家的大脑”“双系统反应机制”**。我们可以把它拆解成三个部分来理解:

1. 宏观阶段:请了一位“老会计”来定基调 (IEFormer)

场景:每天刚开始,你需要定一个全天的“花钱策略”(比如:今天的目标是花多少钱,能换来多少回报)。
以前的做法:完全靠猜,或者看过去几天的平均数。
KBD 的做法
它引入了**“知情机器学习” (Informed Machine Learning)。这就像请了一位经验丰富的老会计**(人类专家)来教机器人。

  • 专家经验:老会计告诉机器人:“花钱越多,回报虽然会增加,但增加的速度会变慢(边际效应递减)”,而且“花钱和回报的关系应该是平滑的,不能忽高忽低”。
  • 结果:机器人不再瞎猜,而是根据这些“常识”画出了一条稳健的基准线。这就像给一天的预算定了一个“安全航向”,即使数据很少(比如新广告刚上线),它也能靠常识做出靠谱的判断。

2. 微观阶段:让“深思熟虑的指挥官”来微调 (Decision Transformer)

场景:定好大方向后,你需要在每一个小时甚至每一分钟,根据实时情况调整出价。
以前的做法:机器人只看眼前这一分钟,觉得“现在出价高就能赢”,结果可能花光了钱,后面没预算了。这叫“短视”。
KBD 的做法
它用了一个叫决策转换器 (Decision Transformer) 的模型。这就像一位深思熟虑的指挥官

  • 全局视野:指挥官不看这一分钟,而是看未来 24 小时。他会想:“现在虽然出价低可能赢不了,但为了留钱给晚上流量高峰,我现在要省着点花。”
  • 结果:它能把一天的时间轴连起来,规划出一条长期收益最大化的路径,而不是只顾眼前。

3. 双系统控制:快慢结合,应对突发状况 (Dual-Process Control)

场景:突然发生了一件大事(比如双 11 大促,或者竞争对手突然降价),数据分布完全变了,历史数据失效了。这时候,那个“深思熟虑的指挥官”可能会因为没见过这种情况而犹豫不决,甚至做出错误决定。
KBD 的绝招:它引入了心理学中的**“双系统理论”**,把两个系统结合起来:

  • 系统 1 (PID 控制器) —— “直觉反应”
    这是一个基于简单规则的老练司机。它反应极快,只盯着一个指标:“如果花钱太快了,就立刻踩刹车;如果钱没花出去,就踩油门”。它不懂复杂的大道理,但极其稳健,绝不会犯大错。
  • 系统 2 (决策转换器) —— “理性思考”
    就是上面那位深思熟虑的指挥官,负责复杂的全局规划。
  • 怎么合作?
    • 平时:指挥官(系统 2)主导,老司机(系统 1)在旁边看着,确保指挥官别跑偏。
    • 突发状况:当指挥官发现情况太复杂、自己拿不准(模型不确定度高)时,老司机的直觉就会接管控制权,或者两者融合。
    • 比喻:就像开车,平时你(系统 2)在思考路线和风景;突然前面冲出一只狗,你的本能反应(系统 1)会立刻踩刹车,而不是等你思考完“狗的种类”再踩。

总结:KBD 到底好在哪里?

  1. 不瞎猜:它把人类专家的经验(比如“花钱越多回报越慢”)写进了代码里,不像以前的模型那样是个只会死记硬背的“书呆子”。
  2. 看得远:它不像以前的模型那样“今朝有酒今朝醉”,而是会为了明天的收益,今天先省着点花。
  3. 抗造:遇到突发的大促销或新情况,它不会像以前的模型那样“死机”或乱花钱,因为它有那个“老练司机”(PID)在兜底,保证即使在大风大浪里也能稳稳当当。

一句话总结
KBD 就是给广告出价系统装上了**“专家的经验”“长远的眼光”“本能的反应”**,让它既聪明又稳健,能在复杂的广告世界里帮老板赚到更多的钱。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →