Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Dit paper introduceert AIGB-Pearl, een nieuwe methode die generatieve planning combineert met beleidsoptimalisatie en een trajectevaluator om de prestaties van auto-bidding te verbeteren door veilige exploratie buiten statische datasets mogelijk te maken.

Zhiyu Mou, Yiqin Lv, Miao Xu, Qi Wang, Yixiu Mao, Jinghao Chen, Qichen Ye, Chao Li, Rongquan Bai, Chuan Yu, Jian Xu, Bo Zheng

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een reclamebureau runt en je wilt je advertenties zo slim mogelijk plaatsen in een enorme veiling. Je hebt een vast budget (bijvoorbeeld €100 per dag) en je wilt zoveel mogelijk klanten bereiken zonder dat je budget te snel op is.

Vroeger deden mensen dit handmatig: "Oh, dit product werkt goed, ik bied iets meer." Maar tegenwoordig is dat te traag en te complex. Dus gebruiken bedrijven automatische biedsystemen (auto-bidding). Een computer kijkt naar miljoenen advertenties per seconde en beslist in een fractie van een seconde of hij moet bieden.

Het Probleem: De "Vaste Boek" Valstrik

De beste systemen tot nu toe leerden van een oud boek met ervaringen (de "offline dataset"). Ze keken naar wat in het verleden goed werkte en probeerden dat na te bootsen.

  • Het nadeel: Stel dat je boek alleen maar bevat hoe je op een zonnige dag hebt geboden. Wat doe je als het morgen regent? Het systeem weet niet hoe het zich moet gedragen in nieuwe situaties omdat het nooit buiten zijn "boek" durft te kijken.
  • De risico's: Als je het systeem probeert te laten "dromen" over nieuwe strategieën, kan het in paniek raken en gekke dingen doen (bijvoorbeeld je hele budget in één minuut uitgeven). Dit noemen ze in de paper het "OOD-probleem" (Out-of-Distribution): het systeem raakt de weg kwijt buiten de bekende data.

De Oplossing: AIGB-Pearl (De Slimme Reisplanner)

De auteurs van dit paper (van Alibaba en Tsinghua Universiteit) hebben een nieuwe methode bedacht genaamd AIGB-Pearl. Ze vergelijken dit met het hebben van een reisleider en een strafrechter in één.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. De Reisplanner (De Generative Model)

Stel je een robot voor die een reisroute tekent. Deze robot probeert de perfecte route te vinden om je doel te bereiken (veel klanten, weinig kosten). In het verleden kopieerde deze robot alleen routes die al in het boek stonden. Nu proberen we hem te laten nieuwe, betere routes bedenken.

2. De Strafrechter (De Traject-evaluator)

Het probleem is: hoe weet de robot of een nieuwe route wel goed is, als die route nog nooit in het boek heeft gestaan?
Hier komt de Strafrechter (de evaluator) om de hoek kijken.

  • Deze "rechter" is een slimme AI die is getraind om elke mogelijke route te beoordelen.
  • Hij zegt: "Die nieuwe route? Die ziet er goed uit, je krijgt een hoge score!" of "Die route? Gevaarlijk! Je loopt je budget te snel op."
  • De robot leert van deze feedback en probeert routes te vinden die de rechter een hoge score geven.

3. De Veiligheidsgordel (De KL-Lipschitz Beperking)

Dit is het meest ingenieuze deel. Als je de robot te veel vrijheid geeft, kan hij in de war raken en een route kiezen die er op papier goed uitziet (een hoge score van de rechter), maar in werkelijkheid een ramp is.

De auteurs hebben een veiligheidsgordel bedacht (de KL-Lipschitz constraint):

  • De Metaphor: Stel je voor dat de robot mag dromen, maar alleen binnen een straal van 10 meter van de beste bekende routes in het oude boek.
  • Als de robot probeert te ver weg te gaan (te ver van de bekende data), wordt de "veiligheidsgordel" strakker getrokken.
  • Dit zorgt ervoor dat de robot veilig kan experimenteren. Hij kan nieuwe dingen proberen, maar niet zover dat hij de controle verliest. Het is alsof je een kind op de fiets een beetje meer ruimte geeft, maar altijd binnen de stoep, zodat hij niet in de auto's rijdt.

Waarom is dit zo goed?

In de echte wereld (op Taobao, een enorme Chinese webshop) hebben ze dit getest:

  • Resultaat: Het nieuwe systeem verdiende meer geld (GMV) dan de oude systemen, terwijl het net zo veilig bleef.
  • Stabiliteit: Oude methoden (zoals Reinforcement Learning) zijn vaak onstabiel; ze kunnen "crashen" tijdens het leren. AIGB-Pearl leert rustig en gestructureerd, net als een goede student die stap voor stap verbetert.
  • Veiligheid: Het systeem maakt geen gekke fouten. Het blijft binnen de veilige grenzen, zelfs als het probeert iets nieuws te proberen.

Samenvattend

Stel je voor dat je een chef-kok bent die een nieuw recept wil bedenken.

  • Oude methode: Je kookt alleen maar exact hetzelfde als in het kookboek. Saai, maar veilig.
  • Gevaarlijke methode: Je probeert willekeurige ingrediënten te mixen. Soms wordt het lekker, maar vaak is het een smakeloze soep of een explosie in de keuken.
  • AIGB-Pearl: Je hebt een proefpersoon (de evaluator) die elke nieuwe combinatie proeft. Maar je hebt ook een veiligheidsreglement (de Lipschitz-beperking) dat zegt: "Je mag nieuwe ingrediënten toevoegen, maar je moet het basisrecept herkenbaar houden."

Het resultaat? Je creëert een nieuw, heerlijk gerecht dat beter smaakt dan het oude, zonder dat je de keuken in brand steekt. Dat is wat AIGB-Pearl doet voor reclamebiedingen: het maakt advertenties slimmer en winstgevender, terwijl het de veiligheid garandeert.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →