Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Werbetreibender, der jeden Tag ein festes Budget hat, um seine Produkte online zu bewerben. Ihre Aufgabe ist es, für jede einzelne Anzeige genau den richtigen Preis zu bieten, um so viele Kunden wie möglich zu gewinnen, ohne das Budget zu sprengen. Das ist wie ein sehr schnelles Schachspiel gegen tausende andere Spieler, bei dem Sie in Millisekunden entscheiden müssen: "Biete ich jetzt 1 Euro oder 2 Euro?"

Früher haben Menschen diese Entscheidungen getroffen. Später haben Computer gelernt, das zu tun, indem sie auf alten Daten trainiert wurden. Aber hier liegt das Problem: Wie lernt man aus alten Daten, ohne dabei neue, riskante Fehler zu machen?

Hier kommt die neue Methode AIGB-Pearl ins Spiel, die in diesem Papier vorgestellt wird. Lassen Sie uns das Konzept mit ein paar einfachen Analogien erklären:

1. Das Problem: Der "Koch, der nur alte Rezepte kennt"

Stellen Sie sich einen genialen Koch vor (das ist die aktuelle KI-Technologie, genannt Generatives Auto-Bidding). Dieser Koch hat tausende Kochbücher (die alten Daten) auswendig gelernt. Er kann Gerichte kochen, die genau so schmecken wie die alten Rezepte.

Aber was passiert, wenn er ein neues Gericht erfinden soll, das noch nie gekocht wurde?

Die alte KI: Sie versucht, das neue Gericht zu kochen, indem sie einfach die Zutaten der alten Rezepte mischt. Da sie aber nie wirklich "gekocht" hat, um zu sehen, wie es schmeckt (Feedback), kann das Ergebnis katastrophal sein. Sie könnte Salz statt Zucker nehmen, weil sie nur die Formel, nicht den Geschmack kennt. In der Werbung heißt das: Sie bietet zu viel oder zu wenig, und das Budget ist weg.

2. Die Lösung: Der "Koch mit einem blinden Tester"

Die Autoren von AIGB-Pearl haben eine clevere Idee: Sie geben dem Koch einen blinden Tester (den Evaluator).

Der blinde Tester: Dieser Tester schmeckt jedes neue Gericht, das der Koch zubereitet, und gibt sofort eine Punktzahl ab: "Das schmeckt toll!" oder "Das ist ungenießbar!"
Der Prozess: Der Koch probiert nun neue Kombinationen aus. Der Tester bewertet sie. Wenn das Gericht gut schmeckt, merkt sich der Koch die Kombination. Wenn es schlecht schmeckt, verwirft er sie.

Das Problem dabei: Wenn der Koch etwas völlig Neues probiert (etwas, das in keinem alten Kochbuch steht), könnte der Tester sich irren. Vielleicht schmeckt das neue Gericht eigentlich super, aber der Tester sagt "schlecht", weil er es noch nie gesehen hat. Oder schlimmer: Der Tester sagt "super", obwohl das Gericht giftig ist.

3. Der Sicherheitsgurt: Die "Lippenstift-Regel" (Lipschitz-Bedingung)

Damit der Koch nicht verrückt wird und giftige Gerichte serviert, führen die Autoren eine strenge Sicherheitsregel ein.

Stellen Sie sich vor, der Tester ist wie ein sehr vorsichtiger Richter. Er sagt: "Du darfst nur neue Gerichte ausprobieren, die sehr ähnlich zu den Gerichten sind, die du schon kennst."

Die Analogie: Wenn der Koch ein neues Rezept erfinden will, darf er nur Zutaten verwenden, die sich maximal ein kleines bisschen von den alten unterscheiden. Er darf nicht plötzlich von "Salat" zu "Feuer" springen.
In der Technik: Das nennt man Lipschitz-Bedingung. Es stellt sicher, dass kleine Änderungen im Input (dem Angebot) nur kleine, vorhersehbare Änderungen im Output (dem Ergebnis) bewirken. Der Koch darf nicht wild herumexperimentieren, sondern muss sich in einem sicheren, vorhersehbaren Bereich bewegen.

4. Das Ergebnis: AIGB-Pearl

Die Methode AIGB-Pearl kombiniert also drei Dinge:

Der Koch (Generative KI): Er lernt aus alten Daten, wie man kocht.
Der Tester (Evaluator): Er bewertet, ob das neue Gericht gut ist, und gibt dem Koch Feedback, damit er besser wird.
Der Sicherheitsgurt (KL-Lipschitz-Bedingung): Er verhindert, dass der Koch zu riskante Experimente macht, bei denen der Tester sich vielleicht täuscht.

Warum ist das so wichtig?
In der Werbung geht es um echtes Geld. Wenn eine KI falsch liegt, verliert ein Unternehmen tausende Euro pro Tag.

Die alten Methoden waren entweder zu vorsichtig (sie haben nur das Alte nachgeahmt und wurden nicht besser) oder zu riskant (sie haben wild experimentiert und Geld verbrannt).
AIGB-Pearl ist wie ein erfahrener Koch, der mutig neue Rezepte probiert, aber immer einen Sicherheitsgurt trägt, der ihn daran hindert, in die Küche zu fallen.

Zusammenfassung in einem Satz

AIGB-Pearl ist eine KI für Online-Werbung, die lernt, bessere Angebote zu machen, indem sie neue Ideen testet, aber durch einen cleveren "Sicherheitsgurt" garantiert, dass sie dabei nie das Budget sprengt oder katastrophale Fehler macht.

In den Tests auf der riesigen E-Commerce-Plattform von Alibaba (Taobao) hat diese Methode gezeigt, dass sie deutlich mehr Umsatz (GMV) generiert als alle bisherigen Methoden, während sie gleichzeitig sicher bleibt. Es ist ein großer Schritt von "blindem Nachahmen" hin zu "sicherem Lernen durch Ausprobieren".

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Hintergrund:
Auto-Bidding (automatisiertes Gebotssystem) ist ein entscheidendes Werkzeug für Werbetreibende, um in dynamischen und wettbewerbsintensiven Online-Auktionen die Werbeperformance zu optimieren. Das Ziel ist es, eine Gebotsstrategie zu finden, die den kumulierten Wert der gewonnenen Impressionen maximiert, unter Einhaltung eines Budgets.

Aktuelle Herausforderungen:

Offline Reinforcement Learning (RL): Traditionelle RL-Ansätze leiden unter der „Bootstrapping"-Problematik (Instabilität durch geschätzte Werte) und dem Out-of-Distribution (OOD) Problem, was zu instabilem Training und suboptimalen Strategien führt.
Generative Auto-Bidding (AIGB): Neuere Methoden wie AIGB (z. B. DiffBid) modellieren das Problem als Trajektorien-Generierungsaufgabe mittels generativer Modelle (z. B. Diffusion-Modelle). Diese sind stabiler als RL, haben jedoch eine fundamentale Schwäche: Sie imitieren lediglich die Daten aus dem statischen Offline-Datensatz. Sie besitzen keine explizite Belohnungsfunktion, um über den Datensatz hinaus zu explorieren. Wenn sie versuchen, Gebote für Szenarien zu generieren, die im Datensatz nicht vorkommen (Extrapolation), werden die Ergebnisse unzuverlässig und können zu riskanten oder suboptimalen Pfaden führen.

Kernfrage: Wie kann man die Stabilität generativer Modelle mit der Fähigkeit zur Optimierung und Exploration von RL kombinieren, ohne die Sicherheit des Offline-Settings zu gefährden?

2. Methodik: AIGB-Pearl

Die Autoren schlagen AIGB-Pearl (Planning with EvaluAtor via RL) vor, eine Methode, die generative Planung mit einer RL-basierten Policy-Optimierung integriert.

Hauptkomponenten:

Trajektorien-Evaluator (Trajectory Evaluator):
- Ein überwachtes Lernmodell, das auf dem Offline-Datensatz trainiert wird, um eine Punktzahl (Score) $\hat{y}_\phi(\tau)$ für die Qualität einer generierten Trajektorie $\tau$ vorherzusagen.
- Dieser Evaluator dient als Ersatz für die fehlende direkte Belohnungssignatur während des Trainings des Generators.
- Um die Generalisierungsfähigkeit zu sichern, wird der Evaluator mit einer Lipschitz-Regularisierung trainiert, um sicherzustellen, dass kleine Änderungen in der Eingabe (Trajektorie) nur kleine Änderungen im Score bewirken.
KL-Lipschitz-beschränkte Score-Maximierung:
- Der Planer (Generator) versucht, den vom Evaluator vorhergesagten Score zu maximieren.
- Um das OOD-Problem zu lösen und sicherzustellen, dass der Evaluator auch bei neuen Trajektorien verlässlich bleibt, wird ein strenges Optimierungsproblem formuliert:
  - Ziel: Maximierung des Scores $L(\theta)$ .
  - Nebenbedingung 1 (KL-Divergenz): Der Generator muss nahe am Offline-Datensatz bleiben (Behavior Cloning), um die Imitationsfehler zu begrenzen.
  - Nebenbedingung 2 (Lipschitz-Bedingung): Die Empfindlichkeit des Generators gegenüber Änderungen der Bedingung (z. B. gewünschtem ROI) muss begrenzt sein. Dies verhindert, dass der Generator in instabile Regionen des Suchraums springt.
- Theoretische Garantie: Die Autoren leiten eine obere Schranke für die Suboptimalität her. Sie beweisen, dass die Differenz zwischen der wahren Performance und dem geschätzten Score durch die Bias des Evaluators, die Lipschitz-Konstanten und die Divergenz zum Datensatz begrenzt ist.
Praktischer Algorithmus (Synchronous Coupling):
- Um die Lipschitz-Bedingung effizient zu berechnen, wird eine synchronisierte Kopplung (Synchronous Coupling) verwendet. Dabei werden zwei Trajektorien mit unterschiedlichen Bedingungen ( $y_1, y_2$ ) unter Verwendung desselben Rauschvektors generiert.
- Dies reduziert die Varianz bei der Schätzung des Wasserstein-Abstands (ein Maß für die Divergenz der Verteilungen) und ermöglicht eine effiziente Berechnung der Regularisierungsterme im Trainingsverlust des Generators.

3. Schlüsselbeiträge

Neue Methode (AIGB-Pearl): Ein hybrider Ansatz, der generative Modelle mit RL-Optimierung verbindet, um kontinuierlich die Generierungsqualität über den Offline-Datensatz hinaus zu verbessern.
Theoretische Fundierung: Einführung eines beweisbaren Ziels mit einer Suboptimalitäts-Schranke. Die Kombination aus KL- und Lipschitz-Beschränkungen garantiert eine sichere Generalisierung in einem theoretisch zertifizierten Umfeld um hochwertige Trajektorien herum.
Praktischer Algorithmus: Entwicklung eines effizienten Trainingsverfahrens mittels synchroner Kopplung, das die Lipschitz-Anforderungen für generative Modelle (Transformer/Diffusion) erfüllt.
Umfassende Validierung: Demonstration der Überlegenheit sowohl in simulierten Umgebungen als auch in großangelegten A/B-Tests auf der E-Commerce-Plattform Taobao.

4. Ergebnisse

Die Methode wurde in umfangreichen Experimenten getestet:

Simulierte Experimente: AIGB-Pearl übertraf alle Baselines (inkl. DiffBid, DT, CQL, BCQ) konsistent in der GMV (Gross Merchandise Volume) über verschiedene Budget-Level hinweg. Die Verbesserungen lagen zwischen +2,09% und +4,62% gegenüber dem besten AIGB-Baseline.
Reale Welt (Taobao A/B-Tests):
- In Tests mit 6.000 Werbetreibenden erzielte AIGB-Pearl eine GMV-Steigerung von +3,00% gegenüber DiffBid und +3,43% gegenüber anderen Baselines.
- Auch bei der ROI (Return on Investment) und der Anzahl der Käufe (BuyCnt) wurden signifikante Verbesserungen (+1,89% ROI, +2,20% BuyCnt) erzielt, bei gleichzeitig stabilen Kosten (Schwankung < 2%).
- TargetROAS Szenario: In einem komplexeren Szenario mit ROI-Zielvorgabe erreichte AIGB-Pearl eine +5,1% GMV-Steigerung.
Generalisierung: Die Methode zeigte bessere Generalisierungsfähigkeiten auf Werbetreibende, die nicht im Offline-Datensatz enthalten waren, im Vergleich zu reinen AIGB-Methoden.
Stabilität: Im Gegensatz zu Offline-RL-Methoden, die starke Schwankungen in den Lernkurven aufwiesen, zeigte AIGB-Pearl ein sehr stabiles und glattes Training.
Ablationsstudie: Das Entfernen der KL- oder Lipschitz-Beschränkungen führte zu pathologischen Verhaltensweisen (z. B. übermäßiger Budgetverbrauch, rückläufiges Pacing) und Performance-Einbußen, was die Notwendigkeit der theoretischen Beschränkungen unterstreicht.

5. Bedeutung und Fazit

AIGB-Pearl adressiert die kritische Lücke zwischen der Stabilität generativer Modelle und der Optimierungsfähigkeit von Reinforcement Learning im Bereich des Online-Advertising.

Sicherheit: Durch die theoretisch fundierten Lipschitz- und KL-Beschränkungen wird sichergestellt, dass das System keine riskanten Strategien entwickelt, die zu finanziellen Verlusten führen könnten. Dies ist für den industriellen Einsatz in Echtzeit-Auktionen essenziell.
Effizienz: Die Methode vermeidet das instabile Bootstrapping von Q-Werten, das bei klassischen RL-Ansätzen problematisch ist, und nutzt stattdessen einen stabilen, bewertungsbasierten Optimierungsprozess.
Skalierbarkeit: Die Erfolge in realen A/B-Tests auf einer der größten E-Commerce-Plattformen der Welt belegen, dass die Methode nicht nur theoretisch, sondern auch praktisch überlegen ist und signifikante geschäftliche Werte (Millionen an zusätzlichem GMV) generieren kann.

Zusammenfassend stellt AIGB-Pearl einen neuen State-of-the-Art für das Auto-Bidding dar, der die Vorteile von Generativer KI und Reinforcement Learning sicher und effektiv vereint.

Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

1. Das Problem: Der "Koch, der nur alte Rezepte kennt"

2. Die Lösung: Der "Koch mit einem blinden Tester"

3. Der Sicherheitsgurt: Die "Lippenstift-Regel" (Lipschitz-Bedingung)

4. Das Ergebnis: AIGB-Pearl

Zusammenfassung in einem Satz

1. Problemstellung und Motivation

2. Methodik: AIGB-Pearl

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction