Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een reclamebureau runt en je wilt je advertenties zo slim mogelijk plaatsen in een enorme veiling. Je hebt een vast budget (bijvoorbeeld €100 per dag) en je wilt zoveel mogelijk klanten bereiken zonder dat je budget te snel op is.

Vroeger deden mensen dit handmatig: "Oh, dit product werkt goed, ik bied iets meer." Maar tegenwoordig is dat te traag en te complex. Dus gebruiken bedrijven automatische biedsystemen (auto-bidding). Een computer kijkt naar miljoenen advertenties per seconde en beslist in een fractie van een seconde of hij moet bieden.

Het Probleem: De "Vaste Boek" Valstrik

De beste systemen tot nu toe leerden van een oud boek met ervaringen (de "offline dataset"). Ze keken naar wat in het verleden goed werkte en probeerden dat na te bootsen.

Het nadeel: Stel dat je boek alleen maar bevat hoe je op een zonnige dag hebt geboden. Wat doe je als het morgen regent? Het systeem weet niet hoe het zich moet gedragen in nieuwe situaties omdat het nooit buiten zijn "boek" durft te kijken.
De risico's: Als je het systeem probeert te laten "dromen" over nieuwe strategieën, kan het in paniek raken en gekke dingen doen (bijvoorbeeld je hele budget in één minuut uitgeven). Dit noemen ze in de paper het "OOD-probleem" (Out-of-Distribution): het systeem raakt de weg kwijt buiten de bekende data.

De Oplossing: AIGB-Pearl (De Slimme Reisplanner)

De auteurs van dit paper (van Alibaba en Tsinghua Universiteit) hebben een nieuwe methode bedacht genaamd AIGB-Pearl. Ze vergelijken dit met het hebben van een reisleider en een strafrechter in één.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. De Reisplanner (De Generative Model)

Stel je een robot voor die een reisroute tekent. Deze robot probeert de perfecte route te vinden om je doel te bereiken (veel klanten, weinig kosten). In het verleden kopieerde deze robot alleen routes die al in het boek stonden. Nu proberen we hem te laten nieuwe, betere routes bedenken.

2. De Strafrechter (De Traject-evaluator)

Het probleem is: hoe weet de robot of een nieuwe route wel goed is, als die route nog nooit in het boek heeft gestaan?
Hier komt de Strafrechter (de evaluator) om de hoek kijken.

Deze "rechter" is een slimme AI die is getraind om elke mogelijke route te beoordelen.
Hij zegt: "Die nieuwe route? Die ziet er goed uit, je krijgt een hoge score!" of "Die route? Gevaarlijk! Je loopt je budget te snel op."
De robot leert van deze feedback en probeert routes te vinden die de rechter een hoge score geven.

3. De Veiligheidsgordel (De KL-Lipschitz Beperking)

Dit is het meest ingenieuze deel. Als je de robot te veel vrijheid geeft, kan hij in de war raken en een route kiezen die er op papier goed uitziet (een hoge score van de rechter), maar in werkelijkheid een ramp is.

De auteurs hebben een veiligheidsgordel bedacht (de KL-Lipschitz constraint):

De Metaphor: Stel je voor dat de robot mag dromen, maar alleen binnen een straal van 10 meter van de beste bekende routes in het oude boek.
Als de robot probeert te ver weg te gaan (te ver van de bekende data), wordt de "veiligheidsgordel" strakker getrokken.
Dit zorgt ervoor dat de robot veilig kan experimenteren. Hij kan nieuwe dingen proberen, maar niet zover dat hij de controle verliest. Het is alsof je een kind op de fiets een beetje meer ruimte geeft, maar altijd binnen de stoep, zodat hij niet in de auto's rijdt.

Waarom is dit zo goed?

In de echte wereld (op Taobao, een enorme Chinese webshop) hebben ze dit getest:

Resultaat: Het nieuwe systeem verdiende meer geld (GMV) dan de oude systemen, terwijl het net zo veilig bleef.
Stabiliteit: Oude methoden (zoals Reinforcement Learning) zijn vaak onstabiel; ze kunnen "crashen" tijdens het leren. AIGB-Pearl leert rustig en gestructureerd, net als een goede student die stap voor stap verbetert.
Veiligheid: Het systeem maakt geen gekke fouten. Het blijft binnen de veilige grenzen, zelfs als het probeert iets nieuws te proberen.

Samenvattend

Stel je voor dat je een chef-kok bent die een nieuw recept wil bedenken.

Oude methode: Je kookt alleen maar exact hetzelfde als in het kookboek. Saai, maar veilig.
Gevaarlijke methode: Je probeert willekeurige ingrediënten te mixen. Soms wordt het lekker, maar vaak is het een smakeloze soep of een explosie in de keuken.
AIGB-Pearl: Je hebt een proefpersoon (de evaluator) die elke nieuwe combinatie proeft. Maar je hebt ook een veiligheidsreglement (de Lipschitz-beperking) dat zegt: "Je mag nieuwe ingrediënten toevoegen, maar je moet het basisrecept herkenbaar houden."

Het resultaat? Je creëert een nieuw, heerlijk gerecht dat beter smaakt dan het oude, zonder dat je de keuken in brand steekt. Dat is wat AIGB-Pearl doet voor reclamebiedingen: het maakt advertenties slimmer en winstgevender, terwijl het de veiligheid garandeert.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Auto-bidding is een cruciale techniek voor adverteerders om biedingen in online advertenties automatisch te optimaliseren binnen een vast budget. Het probleem wordt gemodelleerd als een offline sequentiële beslissingsopdracht (Markov Decision Process), waarbij het doel is om de cumulatieve waarde (GMV) van gewonnen impressions te maximaliseren zonder het budget te overschrijden.

Er zijn twee bestaande benaderingen die elk hun beperkingen hebben:

Offline Reinforcement Learning (RL): Methoden zoals BCQ of CQL zijn populair maar lijden vaak onder trainingsinstabiliteit door het gebruik van "bootstrapping" (het gebruik van geschatte waarden als labels). Dit kan leiden tot onbetrouwbare beleidsontwikkeling.
Generatieve Auto-Bidding (AIGB): Nieuwere methoden (zoals DiffBid) modelleren het probleem als een trajectgeneratie-taak met conditionele generatieve modellen. Hoewel dit stabieler is dan RL, missen deze methoden een mechanisme om buiten het statische offline dataset te exploreren. Ze imiteren voornamelijk bestaande trajecten en kunnen geen nieuwe, betere strategieën ontdekken op basis van prestatiefeedback, wat leidt tot prestatieplafonds en risico's bij extrapolatie.

De kernvraag is: Hoe kunnen we de stabiliteit van generatieve modellen combineren met de exploratiekracht van RL, terwijl we veilig blijven binnen de grenzen van het offline dataset?

2. Methodologie: AIGB-Pearl

De auteurs stellen AIGB-Pearl (Planning with EvaluAtor via RL) voor. Dit is een hybride framework dat generatieve planning combineert met beleidsoptimalisatie via een leerbaar trajectevaluator.

Kerncomponenten:

Trajectevaluator (Evaluator):
- Een model dat wordt getraind via supervised learning op het offline dataset om een score $\hat{y}_\phi(\tau)$ te voorspellen die de kwaliteit (rewards) van een gegenereerd traject $\tau$ schat.
- Om de betrouwbaarheid te waarborgen, wordt de evaluator getraind met een Lipschitz-regularisatie. Dit zorgt ervoor dat kleine veranderingen in het input-traject leiden tot kleine veranderingen in de voorspelde score, wat overfitting op OOD (Out-of-Distribution) data voorkomt.
- De evaluatie wordt versterkt door LLM-embeddings (voor semantische advertentiefuncties) en een pair-wise loss (voor betere rangschikking van trajecten).
Generatieve Planner:
- Een conditioneel generatief model (gebaseerd op een Causal Transformer) dat trajecten genereert onder een specifieke conditie $y^*$ (een hogere gewenste kwaliteit dan het gemiddelde in het dataset).
- De planner wordt getraind om de score van de evaluator te maximaliseren, maar dan onder strikte constraints om veilig te exploreren.
KL-Lipschitz-beperkte Score-Maximalisatie:
- Om de "OOD-problematiek" op te lossen, wordt het maximaliseren van de score beperkt door twee voorwaarden:
  - KL-constraint: De gegenereerde verdeling moet dicht bij de verdeling van het offline dataset blijven (gedragscloning).
  - Lipschitz-constraint: De planner moet Lipschitz-continu zijn ten opzichte van de conditie $y$ . Dit betekent dat als de gewenste kwaliteit ( $y^*$ ) iets stijgt, het gegenereerde traject niet drastisch verandert, maar binnen een "gecertificeerde buurt" van de beste offline trajecten blijft.
- Theoretische Garantie: De auteurs bewijzen een sub-optimaliteitsgrens. Ze tonen aan dat als de evaluator en planner voldoen aan deze constraints, de prestatie van het gevonden beleid dicht bij het theoretisch optimale beleid ligt, met een foutmarge die afhankelijk is van de bias van de evaluator en de strengheid van de constraints.
Synchrone Koppeling (Synchronous Coupling):
- Een praktische algoritme-techniek om de Lipschitz-constraint efficiënt te berekenen. In plaats van willekeurige koppelingen te gebruiken, worden twee trajecten gegenereerd met dezelfde reeks ruis (Gaussian noise). Dit vermindert de variantie in de schatting van de Wasserstein-afstand (een maat voor de afstand tussen verdelingen) en maakt het mogelijk om de Lipschitz-eis strikt te handhaven tijdens het trainen.

3. Belangrijkste Bijdragen

Nieuwe Architectuur: Introductie van AIGB-Pearl, het eerste generatieve auto-bidding framework dat actief exploreren buiten het offline dataset mogelijk maakt via een RL-gebaseerde evaluatiecyclus, zonder de instabiliteit van traditionele RL.
Theoretische Fundamenten: Een bewezen KL-Lipschitz-beperkte optimalisatie met een sub-optimaliteitsgrens. Dit biedt theoretische zekerheid dat de exploratie veilig is en niet leidt tot risicovolle of onbetrouwbare biedstrategieën.
Praktisch Algoritme: Ontwikkeling van een efficiënt trainingsalgoritme met synchrone koppeling om de complexe Lipschitz-constraints in een generatief model haalbaar te maken.
Verbeterde Evaluatie: Integratie van LLM-embeddings en pair-wise learning in de evaluator voor een hogere nauwkeurigheid in het schatten van trajectkwaliteit.

4. Resultaten

De methode is getest in zowel gesimuleerde omgevingen als real-world A/B-tests op het Taobao-platform (Alibaba).

Gesimuleerde Experimenten: AIGB-Pearl overtrof alle state-of-the-art baselines (inclusief DiffBid, DT, en offline RL-methoden zoals CQL en IQL) consistent in GMV (Gross Merchandise Volume) over verschillende budgetniveaus. De verbetering bedroeg gemiddeld +2% tot +4.6% ten opzichte van de beste concurrenten.
Real-world A/B-tests:
- In tests met 6.000 adverteerders over 19 dagen behaalde AIGB-Pearl een GMV-stijging van +3.00% ten opzichte van DiffBid, met een gelijktijdige verbetering in ROI (+1.89%) en aankopen (+2.20%), terwijl de kosten binnen de tolerantie bleven.
- Bij generalisatie naar adverteerders die niet in het offline dataset zaten, behaalde de methode nog steeds een +3% GMV-stijging, wat aantoont dat het beter generaliseert dan bestaande AIGB-methoden.
TargetROAS: Bij een complexer probleem met een ROI-constraint (TargetROAS) werd een GMV-stijging van +5.1% behaald.
Stabiliteit: In tegenstelling tot offline RL-methoden die vaak instabiele leercurven vertonen met hoge variantie tussen verschillende seeds, toonde AIGB-Pearl zeer stabiel en consistent trainingsgedrag.
Ablatie Studies: Het verwijderen van de KL- of Lipschitz-constraints leidde tot een significante daling in prestaties en het ontstaan van "pathologische" trajecten (bijv. budgetoverschrijding of inefficiënte bestedingspatronen), wat de noodzaak van de voorgestelde constraints bevestigt.

5. Betekenis en Impact

AIGB-Pearl vertegenwoordigt een doorbraak in het veld van auto-bidding en offline decision-making:

Overbrugging van de Kloof: Het overbrugt de kloof tussen de stabiliteit van generatieve modellen en de optimalisatiekracht van RL, zonder de inherente instabiliteit van bootstrapping.
Veilige Innovatie: Door de theoretisch onderbouwde constraints biedt het een veilige manier om buiten het bestaande data-domein te exploreren, wat essentieel is voor industriële toepassingen waar fouten hoge financiële kosten met zich meebrengen.
Schaalbaarheid: De succesvolle implementatie op het Taobao-platform (miljoenen transacties) bewijst dat de methode schaalbaar en robuust is voor complexe, real-world omgevingen.

Samenvattend biedt AIGB-Pearl een nieuwe standaard voor generatieve auto-bidding, waarbij veilige exploratie en theoretische garanties leiden tot meetbare, significante verbeteringen in advertentieprestaties.