Knowledge-informed Bidding with Dual-process Control for Online Advertising

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat online adverteren een enorme, razendsnelle veiling is. Elke seconde worden miljoenen advertenties verkocht aan de hoogste bieder. Voor adverteerders is dit een enge wereld: ze willen hun budget zo slim mogelijk uitgeven om de meeste klanten te vinden, zonder te veel te betalen.

Vroeger deden dit slimme mensen (experts) met ervaring. Maar tegenwoordig proberen computers (AI) dit te doen. Het probleem? De huidige computers zijn als automatische koks die alleen recepten uit een oud kookboek volgen. Als er iets onverwachts gebeurt (zoals een nieuwe trend of een grote verkoopdag), raken ze in paniek, omdat ze niet begrijpen waarom iets werkt, maar alleen hoe het in het verleden werkte.

Deze paper introduceert KBD (Knowledge-informed Bidding with Dual-process Control). Dit is een nieuwe manier om te bieden die combineert: menselijke wijsheid met slimme AI.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. Het Probleem: De "Blindelings Volgende" Robot

Huidige systemen kijken alleen naar historische data.

Het gebrek aan ervaring: Als een nieuw product wordt gelanceerd, heeft de computer geen data. Een mens zou zeggen: "Oké, dit is nieuw, we moeten voorzichtig beginnen." De computer probeert echter gewoon te raden op basis van oude, niet-vergelijkbare data.
Korte termijn denken: De computer kijkt vaak alleen naar de volgende seconde. "Ik win deze klik!" denkt hij. Maar hij vergeet dat hij hierdoor morgen zijn budget op heeft en geen geld meer heeft voor belangrijke klanten.

2. De Oplossing: KBD (De Twee-Hoofdige Chef)

KBD lost dit op door te denken als een mens met twee hersensystemen (gebaseerd op de Dual-Process Theory):

Systeem 1 (De Snelle Reflex): Een ervaren, snelle regel.
Systeem 2 (De Denkende Chef): Een complexe, langzame AI die nadenkt over de lange termijn.

Laten we KBD opdelen in twee delen:

Deel A: De Dagelijkse Basis (De "Gids")

Voordat de computer elke uur een beslissing neemt, moet hij een dagelijkse richtlijn hebben.

Hoe werkt het? De auteurs gebruiken een systeem genaamd IEFormer. Dit is als een kookboek dat is geschreven door een meesterkok.
De creatieve analogie: Stel je voor dat je een soep maakt. De AI (de robot) probeert de smaak te voorspellen. Maar in plaats van blind te proeven, geeft de AI de robot een monotoon kookboek (een regel dat zegt: "Als je meer zout doet, wordt de soep zouter, nooit minder").
Waarom is dit slim? De computer leert niet alleen uit data, maar krijgt ook menselijke regels ingebrand. Hij weet bijvoorbeeld: "Als ik meer geld uitgeef, moet ik ook meer resultaten zien." Dit voorkomt dat de robot gekke dingen doet als er weinig data is.

Deel B: Het Uurlijkse Aanpassen (De "Twee-Hoofdige Bestuurder")

Nu de dagelijkse basis staat, moet de computer elke uur beslissen of hij iets meer of minder moet bieden. Hier komen de twee systemen samen:

Systeem 1: De PID-Controller (De "Varende Boot")
- Dit is een simpele, snelle regel. Stel je voor dat je een boot bestuurt. Als je te ver naar links drijft (te veel uitgegeven), draai je direct rechtsom. Als je te ver naar rechts drijft (te weinig uitgegeven), draai je linksom.
- Dit systeem is niet heel slim, maar het is zeer betrouwbaar. Het zorgt ervoor dat je nooit je budget overschrijdt. Het is de "veilige reflex".
Systeem 2: De Decision Transformer (De "Strategische Speler")
- Dit is de super-slimme AI. Hij denkt na over de volgende 24 uur. Hij zegt: "Als ik nu iets meer uitgeef, kan ik morgen een grote klant winnen." Hij is goed in complexe strategieën.
- Het probleem: Soms is hij te zelfverzekerd en maakt hij fouten als de situatie verandert (bijvoorbeeld tijdens een grote sale).

De Magische Combinatie (Dual-Process Control):
KBD laat deze twee samenwerken op een slimme manier:

Tijdens het trainen: De slimme AI (Systeem 2) leert van de snelle reflex (Systeem 1). Hij krijgt een "straf" als hij te ver afwijkt van de veilige regels.
Tijdens het spelen: De computer kijkt naar zijn eigen zelfvertrouwen.
- Is hij zeker van zijn zaak? Dan luistert hij naar Systeem 2 (de strateeg) voor maximale winst.
- Is hij onzeker (bijvoorbeeld omdat de markt plotseling verandert)? Dan schakelt hij over naar Systeem 1 (de veilige reflex) om geen fouten te maken.

3. Wat leverde dit op?

De auteurs hebben dit getest in de echte wereld (op Alibaba Health) en op openbare datasets.

Resultaat: Het systeem verdiende meer geld (GMV) dan de beste bestaande methoden.
Waarom? Omdat het systeem niet alleen "leert" uit data, maar ook begrijpt uit menselijke ervaring. Het is niet bang voor nieuwe situaties, omdat het een veilige "reflex" heeft om op terug te vallen.

Samenvatting in één zin

KBD is als het geven van een slimme, strategische AI een ervaren, menselijke gids en een veiligheidsriem, zodat hij niet alleen snel kan denken, maar ook nooit uit zijn jasje springt als het even tegenzit.

Het is de perfecte balans tussen menselijke wijsheid (de regels) en computersnelheid (de AI), zodat adverteerders hun geld slimmer uitgeven, zelfs als de wereld om hen heen verandert.

Each language version is independently generated for its own context, not a direct translation.

Titel: Kennisgestuurd Bieden met Dual-proces Controle voor Online Advertising

Auteurs: Huixiang Luo, Longyu Gao, et al. (Alibaba Health)

1. Het Probleem

Automatisch bieden (auto-bidding) in online advertising wordt gedomineerd door zwarte-kas machine learning-modellen die biedstrategieën leren uit historische data. Hoewel deze systemen schaalbaar zijn, vertonen ze drie fundamentele tekortkomingen ten opzichte van menselijke experts:

Slechte generalisatie bij data-schaarste: Ze presteren slecht in situaties met weinig data omdat ze gestructureerde kennis missen.
Kortzichtige optimalisatie: Ze optimaliseren vaak op basis van een enkele beslissingsstap en negeren inter-temporele afhankelijkheden (lange-termijn effecten van huidige biedingen).
Moeite met verdelingsverschuivingen (Distribution Shifts): Ze falen vaak in onbekende scenario's (zoals grote verkoopacties of lanceringen van nieuwe producten) waar menselijke experts wel succesvol zijn, omdat de online data afwijkt van de trainingsdata.

2. Methodologie: KBD (Knowledge-informed Bidding with Dual-process Control)

De auteurs stellen KBD voor, een tweestapsmethode die menselijke expertise combineert met geavanceerde deep learning en dual-proces theorie. De architectuur bestaat uit een macro-stap (dagelijks) en een micro-stap (uurtijds).

A. Macro-stap: IEFormer (Informed Machine Learning)

Op dit niveau wordt een basis-tCPA (target Cost-Per-Action) bepaald die robuust is tegen data-schaarste. Dit wordt gedaan via het Informed Machine Learning (IML) paradigma, waarbij expertise wordt ingebed op drie niveaus:

Hypothese-niveau: Er wordt een hybride cognitieve architectuur gebruikt die connectionistisch leren (Transformer-encoder voor feature-extractie) combineert met symbolisch redeneren (een prijs-volume interpreter).
- De prijs-volume interpreter gebruikt een monotoon stuksgewijs lineair model om de relatie tussen kosten en tCPA te modelleren.
- Een Isotonic Embedding (IE) module zorgt voor interpreteerbare gewichten over kostensegmenten.
- Om ongelijkmatige data-verdeling aan te pakken, wordt een entropie-gedreven adaptieve partitionering (Generalized Lloyd Algorithm) gebruikt om de kostensegmenten optimaal te verdelen.
Algoritme-niveau: Er worden inductieve biases toegevoegd die overeenkomen met domeinkennis:
- Monotonie: tCPA mag niet dalen bij toenemende kosten (geforceerd via SoftPlus-activatie).
- Gladheid: Geen abrupte discontinuïteiten (strafterm in de loss-functie).
- Afnemende meeropbrengst (Diminishing Marginal Returns): De snelheid waarmee tCPA stijgt, vertraagt naarmate de kosten stijgen (een nieuwe regularisatieterm $L_{margin}$ ).
Data-niveau: Om data-schaarste te bestrijden, worden kennis en data overgedragen van andere biedstrategieën (zoals tROI en tCPC) naar de tCPA-strategie door deze om te zetten naar equivalente waarden via een uniforme eCPM-formule.

B. Micro-stap: Dual-proces Controle (PID + Decision Transformer)

Op dit niveau worden de biedingen per uur aangepast om de totale GMV (Gross Merchandise Volume) te maximaliseren, rekening houdend met lange-termijn beloningen.

Systeem 2 (Decision Transformer - DT): Een model dat biedt als een sequentiële beslissingsprobleem (Markov Decision Process) behandelt. Het optimaliseert lange-termijn beloningen door historische sequenties te modelleren, wat het kortzichtige gedrag van stap-voor-stap optimalisatie oplost.
Systeem 1 (PID-controller): Een snelle, regelgebaseerde controller die gebaseerd is op menselijke heuristieken. Deze reguleert biedingen op basis van de afwijking tussen de bestede en de ideale uitgaven (spending rate).
Dual-proces Fusie:
- Tijdens training: De DT wordt geregulariseerd om zich te gedragen als de PID-controller (via een Minimum Description Length prior), zodat het model conservatiever leert zijn.
- Tijdens inferentie: Een dynamische fusie vindt plaats op basis van de onzekerheid van het DT-model. Als de DT onzeker is (bijv. tijdens verkoopacties), wordt het gewicht verschoven naar de robuuste PID-controller. Dit zorgt voor een "graceful degradation" in uitzonderlijke situaties.

3. Belangrijkste Bijdragen

KBD Framework: Een tweestaps biedoptimalisatie die dagelijkse kalibratie door experts koppelt aan sequentiële uurlijkse controle voor lange-termijn beloningen.
Dual-proces Controller: Een innovatieve fusie van PID (Systeem 1) en Decision Transformer (Systeem 2) die zowel robuustheid bij data-verschuivingen als optimale prestaties garandeert.
Informed Machine Learning: Een verbeterde prijs-volume model (IEFormer) dat menselijke expertise (monotonie, gladheid, afnemende meeropbrengst) expliciet in het model bouwt, wat leidt tot betere prestaties in data-schaarse omgevingen.

4. Resultaten

De methode is getest op twee datasets: het publieke iPinYou-dataset en een privé E-Commerce Advertising (ECA) dataset van Alibaba.

Prestatie op iPinYou: KBD presteerde consistent beter dan state-of-the-art methoden (zoals PUROS, GCB-safe, ARTEO) in zowel de genormaliseerde return ( $R/R^*$ $R / R^{*}$ ) als in het voldoen aan beperkingen (budget en tCPA).
- KBD bereikte een $R/R^*$ van 0.730 en een constraint satisfaction van 82.78%.
Online Tests (ECA):
- Het gebruik van alleen IEFormer verbeterde de kostenverbruikratio met 8.4%.
- Het toevoegen van de Decision Transformer (DT) leverde een extra verbetering van 2.3% op.
- De volledige KBD-oplossing (met dual-proces controle) resulteerde in significante stijgingen in GMV en campagneduur, vooral tijdens periodes met verdelingsverschuivingen (zoals nieuwe productlanceringen).
Ablatie Studies:
- Het verwijderen van de kenniscomponenten (zoals de IE-module of de $L_{margin}$ loss) leidde tot directe prestatiedalingen.
- De dual-proces controle bleek cruciaal om de trade-off tussen agressieve optimalisatie (DT) en veilige beperkingen (PID) op te lossen.

5. Betekenis en Impact

Dit artikel is significant omdat het een brug slaat tussen traditionele regelgebaseerde systemen en moderne diepe leermodellen in de complexe wereld van online advertising.

Robuustheid: Het lost het probleem op van "black-box" modellen die falen bij onverwachte gebeurtenissen, door menselijke expertise als een veiligheidsnet (Systeem 1) te integreren.
Interpretabiliteit: Door het gebruik van hybride architecturen en inductieve biases, wordt het model transparanter en makkelijker te debuggen dan pure deep learning-aanpakken.
Lange-termijn Optimalisatie: Het verschuift de focus van kortzichtige stap-voor-stap beslissingen naar een holistische, sequentiële optimalisatie die beter aansluit bij de zakelijke doelen van adverteerders.

Kortom, KBD demonstreert dat het combineren van menselijke kennis met geavanceerde AI-architecturen leidt tot superieure, betrouwbaardere en schaalbare biedsystemen.