LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische veiling organiseert, maar in plaats van antieke vazen, worden er miljoenen advertentieruimtes op het internet per seconde verkocht. Dit is de wereld van online reclame. Adverteerders willen hun producten laten zien aan de juiste mensen, maar ze hebben een beperkt budget en een strikte regel: ze mogen niet te veel betalen per klik of per verkoop.

Vroeger deden ervaren mensen dit handmatig. Maar tegenwoordig is het zo snel en complex dat een mens er niet bij kan. Daarom gebruiken bedrijven automatische biedsystemen (auto-bidding). Het probleem? De huidige systemen zijn als een "zwarte doos": ze doen soms raar, zoals te veel bieden als het al te duur is, en ze kunnen niet goed omgaan met nieuwe situaties omdat ze alleen kijken naar wat er in het verleden is gebeurd.

De auteurs van dit paper hebben een nieuwe, slimme oplossing bedacht: LBM (Large auto-Bidding Model). Ze noemen het een "hiërarchisch model via redeneren en handelen". Laten we dit uitleggen met een simpele analogie.

De Analogie: De Slimme Chef en de Snelle Kok

Stel je een drukke, hoogwaardige keuken voor. Je hebt twee belangrijke rollen nodig om een perfect gerecht te bereiden:

De Chef-kok (LBM-Think):
- Wat doet hij? Hij staat niet direct aan het fornuis. Hij kijkt naar de voorraad, de tijd die er nog is, de gasten die binnenkomen en de regels van het restaurant. Hij redeneert.
- Zijn taak: Hij denkt na: "Oké, we hebben nog veel budget, maar we hebben nog maar weinig bestellingen. We moeten de prijs iets verhogen om meer klanten te trekken, maar niet te hard, want we mogen de kosten per klant niet te hoog laten worden."
- Het resultaat: Hij schrijft een kookplan (in de paper een "Chain-of-Thought" of denkstap genoemd) op een briefje. Dit plan bevat de strategie, niet de daadwerkelijke handeling.
De Snelle Kok (LBM-Act):
- Wat doet hij? Hij staat direct aan het fornuis. Hij is supersnel en uitvoerend.
- Zijn taak: Hij pakt het briefje van de Chef, kijkt naar de huidige situatie (bijvoorbeeld: "Het vuur is nu heel heet") en voert de actie uit. Hij draait de knop precies op het juiste getal.
- Het resultaat: Hij zorgt dat het gerecht op tijd en perfect wordt geserveerd.

Waarom deze indeling?
Als je de Chef-kok zou dwingen om direct aan het fornuis te staan en tegelijkertijd te denken en te koken, zou hij te traag zijn of de pan laten vallen. Door ze te scheiden, kan de Chef rustig nadenken (redeneren) terwijl de Snelle Kok de precieze bewegingen maakt.

De Twee Innovaties in het Model

De paper introduceert twee slimme trucjes om dit systeem te laten werken:

1. De "Taal en Getallen" Bril (Dual Embedding)

Grote taalmodellen (zoals de AI die dit antwoord schrijft) zijn geweldig in woorden, maar slecht in lange rijen met cijfers. Als je een getal als "12,345" in woorden zet, kost dat veel ruimte en tijd.

De oplossing: Het LBM-Act (de Snelle Kok) heeft een speciale "bril" gekregen. Deze bril kan twee soorten informatie tegelijk lezen:
- Het kookplan van de Chef (in taal).
- De live cijfers van de keuken (in getallen).
Het effect: De Snelle Kok begrijpt de strategie van de Chef én ziet precies hoe heet het vuur is, zonder dat hij de cijfers eerst in woorden hoeft te vertalen. Dit maakt hem veel sneller en nauwkeuriger.

2. De "Zonder Risico" Oefening (GQPO)

Normaal gesproken leren AI's door te oefenen in de echte wereld (online). Maar in een echte veiling is dat gevaarlijk: als je fouten maakt, ben je je budget kwijt.

Het probleem: De Chef-kok (LBM-Think) kan soms "hallucineren" (dromen) en een slecht plan maken, omdat hij nooit echt heeft geoefend in de veiling.
De oplossing: De auteurs hebben een methode bedacht genaamd GQPO. Stel je voor dat je de Chef-kok een simulatie geeft. Hij maakt een plan, en een onafhankelijke jury (een Q-waarde model) kijkt na: "Had dit plan gewerkt? Ja, want het zou meer winst hebben opgeleverd dan het oude plan."
Als het plan goed was, krijgt de Chef een puntje. Zo leert hij uit oud data (offline) zonder dat er ook maar één cent in de echte wereld wordt verspild. Hij wordt slim door te kijken naar wat er had kunnen gebeuren, niet door het echt te doen.

Waarom is dit beter dan wat we nu hebben?

Geen "Zwarte Doos": Oude systemen wisten niet waarom ze deden wat ze deden. Met LBM zien we het denkproces van de Chef. Als het systeem iets raars doet, kunnen we het plan lezen en zien: "Ah, hij dacht dat we te veel budget hadden, maar hij vergat de tijd."
Beter in nieuwe situaties: Omdat de Chef-kok is getraind op menselijke kennis en redeneren, kan hij zich aanpassen als de markt verandert. Oude systemen raken in de war als ze iets zien dat ze niet in hun trainingsdata hebben gezien.
Efficiënt: Het systeem is zo opgebouwd dat het niet elke millisecond hoeft na te denken. De Chef denkt een keer per 30 minuten (of zo vaak als nodig), en de Snelle Kok zorgt voor de uitvoering. Dit past perfect bij hoe reclameplatforms werken.

Conclusie

Kortom, dit paper introduceert een systeem dat redeneren (denken) en handelen (doen) splitst in twee gespecialiseerde AI's. Ze gebruiken een slimme manier om taal en cijfers te combineren en leren uit oude data zonder risico's. Het is alsof je een team hebt met een wijs strateeg en een snelle uitvoerder, waardoor adverteerders hun geld beter kunnen besteden en meer resultaten halen in de chaotische wereld van online veilingen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting" in het Nederlands.

Titel: LBM: Hiërarchisch Groot Auto-Bod Model via Redeneren en Handelen

Auteurs: Yewen Li, Zhiyi Lyu, Peng Jiang, Qingpeng Cai, Fei Pan, Bo An (Kuaishou Technology & Nanyang Technological University).
Publicatie: The ACM Web Conference 2026 (WWW '26).

1. Het Probleem

De schaal van advertentieveilingen op online platformen is enorm toegenomen, wat handmatig bieden onpraktisch maakt en geautomatiseerd bieden (auto-bidding) noodzakelijk heeft gemaakt. Bestaande methoden voor auto-bidding, zoals Offline Reinforcement Learning (RL) en generatieve modellen (bijv. Decision Transformers), hebben echter aanzienlijke beperkingen:

Black-box gedrag: Deze modellen kunnen tegenintuïtieve beslissingen nemen (bijv. het verhogen van biedingen wanneer de kosten per actie (CPA) al te hoog is) omdat ze puur op beloningssignalen vertrouwen zonder het taakbegrip te hebben.
Generalisatieproblemen: Ze zijn beperkt door de dekking van de offline dataset en falen vaak in dynamische omgevingen of onvoorspelbare situaties.
Uitdagingen bij LLM-toepassing: Hoewel Large Language Models (LLMs) sterke redeneervermogens hebben, is het direct toepassen ervan op auto-bidding moeilijk. Dit komt door de noodzaak van precieze numerieke acties in competitieve veilingen (waar kleine afwijkingen grote gevolgen hebben) en het gebrek aan gespecialiseerde kennis in LLMs, wat leidt tot hallucinaties en suboptimale beslissingen. Daarnaast is het vertalen van lange numerieke sequenties naar taal-tokens inefficiënt en kostbaar in termen van tokens.

2. Methodologie: De LBM-architectuur

De auteurs stellen een hiërarchisch model voor, genaamd LBM (Large auto-Bidding Model), dat redeneren en handelen ontkoppelt in twee gespecialiseerde modules:

A. Hiërarchische Structuur

LBM-Think (Hoog niveau):
- Doel: Redeneren in taalruimte.
- Functie: Analyseert historische prestaties en genereert een Chain-of-Thought (CoT). Dit is een tekstuele samenvatting van de biedstatus en een redenering over de gewenste aanpassingsrichting (bijv. "verhoog het biedparameter omdat de budgetverbruik te laag is").
- Voordeel: Kan asynchroon werken (binnen een tijdsinterval tussen beslissingen) en maakt gebruik van het vooraf getrainde wereldkennis van de LLM.
LBM-Act (Laag niveau):
- Doel: Genereren van precieze acties in continue numerieke ruimte.
- Functie: Ontvangt de gegenereerde CoT van LBM-Think en de huidige numerieke staat (observaties) en voert de daadwerkelijke biedingsaanpassing uit.
- Voordeel: Gebruikt een kleiner, sneller model dat gespecialiseerd is in nauwkeurige controle.

B. Kerntechnieken

Dual Embedding Mechanisme: Om de inefficiëntie van het vertalen van lange numerieke sequenties naar taal te omzeilen, gebruikt LBM-Act twee aparte inbeddingslagen:
1. Een Token Embedding voor de taal-CoT.
2. Een Decision Embedding (via een MLP) voor de numerieke observaties, die deze projecteert naar een vector van dezelfde grootte als een token.
  Dit stelt het model in staat om taal en cijfers efficiënt te fusioneren via de attention-mechanismen van de Transformer.
Twee-fasen Training:
1. Fase 1 (Talen-gestuurd beslissings-training): LBM-Act wordt getraind om acties te genereren op basis van de CoT en numerieke data, waarbij de CoT fungeert als een leidraad voor de beslissing.
2. Fase 2 (Offline Reinforcement Fine-tuning - GQPO): LBM-Think wordt verfijnd met een nieuwe methode genaamd Group relative-Q Policy Optimization (GQPO).
  - In plaats van simulaties of real-world rollouts (wat riskant is voor adverteren), gebruikt GQPO een offline Q-waarde om de kwaliteit van de gegenereerde CoT te beoordelen.
  - Het model genereert een groep CoTs, berekent de relatieve Q-waarde ( $\Delta Q$ ) voor elk, en selecteert de beste CoT voor training. Dit vermindert hallucinaties en verbetert het redeneervermogen volledig offline.

3. Belangrijkste Bijdragen

Hiërarchisch Model: Een nieuw LBM-ontwerp dat redeneren (Think) en handelen (Act) scheidt, waardoor de kracht van LLM-redenering wordt gecombineerd met de precisie van gespecialiseerde actiegeneratie.
Dual Embedding: Een efficiënt mechanisme om numerieke en taalmodi te fuseren, waardoor de token-kost en attention-beperkingen van pure taalmodellen worden vermeden.
GQPO (Group relative-Q Policy Optimization): Een stabiele, offline fine-tuning techniek voor LLMs die hallucinaties in redenering minimaliseert zonder dat er gevaarlijke real-world experimenten nodig zijn.
Superieure Generalisatie: Het bewijzen dat een generatieve backbone gebaseerd op LLMs beter presteert dan traditionele RL-methoden, vooral in dynamische omgevingen.

4. Resultaten

De auteurs hebben hun model getest op AuctionNet, een benchmark voor grote advertentieveilingen, en vergeleken met state-of-the-art methoden (zoals USCB, CQL, IQL, Decision Transformer, en verschillende LLM-baselines).

Prestatie: LBM (met name de variant met GQPO fine-tuning) behaalde de hoogste scores op Conversions en de gecombineerde Score (die rekening houdt met budget en CPA-beperkingen).
- Op het 'Dense' dataset verbeterde LBM(GQPO) de conversies tot 382 (tegenover 371 voor de beste Decision Transformer).
- Op het 'Sparse' dataset behaalde het 38.5 conversies (tegenover 33.8).
Efficiëntie: Het model convergeert sneller tijdens het trainen dan vergelijkbare methoden zoals LLM-DT.
Redeneervermogen: Visualisaties tonen aan dat het model beter begrijpt wanneer het biedparameters moet verhogen of verlagen op basis van de CPA-ratio (bijv. verlagen als CPA > 1), terwijl traditionele modellen hier vaak in falen.
Robuustheid: Het model presteert consistent goed onder verschillende budgetinstellingen en generaliseert beter naar nieuwe scenario's.

5. Betekenis en Toekomstperspectief

Dit werk markeert een belangrijke stap in de evolutie van auto-bidding:

Van Black-box naar Interpreteerbaar: Door het gebruik van CoT wordt het beslissingsproces van de AI transparanter en beter in lijn met menselijke intuïtie en economische principes.
Veiligheid: De GQPO-methode biedt een veilige manier om LLMs te trainen voor kritieke financiële taken zonder de risico's van online exploratie.
Industriële Toepasbaarheid: De hiërarchische aanpak maakt het mogelijk om de zware redenering (Think) asynchroon uit te voeren, wat de latentie voor de daadwerkelijke biedactie (Act) laag houdt, waardoor het geschikt is voor industriële toepassingen.

Samenvattend introduceert LBM een nieuwe standaard voor auto-bidding door de redeneerkracht van Large Language Models te benutten via een slimme, hiërarchische architectuur die zowel nauwkeurigheid als generalisatie garandeert.