SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Auktionsmeister, der für einen Werbetreibenden arbeitet. Ihr Job ist es, in Echtzeit zu entscheiden, wie viel Geld Sie für eine Anzeige bieten sollen, die gerade auf einem Bildschirm erscheint.

Das Problem? Die Welt ist chaotisch.

Das Budget ist begrenzt: Sie haben nur eine bestimmte Summe pro Tag.
Die Zukunft ist ungewiss: Sie wissen nicht, welche Anzeigen als Nächstes kommen oder ob der Nutzer wirklich kauft.
Der Druck ist hoch: Wenn Sie zu wenig bieten, verpassen Sie den Kunden. Wenn Sie zu viel bieten, ist Ihr Budget am Mittag schon leer.

Bisherige KI-Systeme waren wie Fahrer, die nur in den Rückspiegel schauen. Sie lernten aus vergangenen Fahrten (Daten) und versuchten, das zu wiederholen, was früher gut funktioniert hat. Aber wenn sich die Straßenverhältnisse (der Markt) plötzlich ändern, geraten sie in Panik, weil sie nicht wissen, was um die nächste Ecke passiert.

Hier kommt SEGB ins Spiel. Der Name steht für „Selbst-entwickelndes Generatives Gebot". Man kann sich SEGB wie einen visionären Generalstabschef vorstellen, der drei superkräfte besitzt:

1. Die „Zeitmaschine" (LAD – Der lokale Autoregressive Diffusions-Planer)

Stellen Sie sich vor, Sie planen eine Reise. Ein normaler Planer würde versuchen, die ganze Reise von A nach Z auf einmal zu malen. Das führt oft zu Unsinn (z. B. dass Sie plötzlich 1000 km ohne Benzin fahren).

SEGB nutzt eine Zeitmaschine, die aber sehr vorsichtig ist. Sie schaut nicht auf die ganze Reise, sondern nur auf die nächste Kurve.

Wie es funktioniert: Die KI simuliert die nächsten Momente: „Wenn ich jetzt 5 Euro biete, wie sieht mein Budget in 10 Sekunden aus? Wie viele Klicks habe ich dann?"
Der Vorteil: Sie erzeugt keine wilden Träume, sondern realistische, logische Szenarien, die den Gesetzen der Physik (z. B. Budget kann nur sinken, nicht steigen) folgen. Sie hat also eine klare Sicht auf die unmittelbare Zukunft.

2. Der „Zukunfts-bewusste Navigator" (Next-State-Aware Decision Transformer)

Frühere Systeme waren wie reaktive Autopiloten: „Oh, ich habe viel Geld übrig, also biete ich hoch!" oder „Oh, das Budget ist fast leer, also biete ich gar nichts!" Sie reagierten nur auf das, was war.

SEGB ist ein proaktiver Navigator. Dank der „Zeitmaschine" weiß er, was kommen wird.

Die Analogie: Ein guter Autofahrer bremst nicht erst, wenn er vor dem Hindernis steht, sondern wenn er sieht, dass die Straße gleich enger wird.
SEGB nutzt die Vorhersage der Zeitmaschine, um strategisch zu handeln. Wenn die KI sieht, dass das Budget in 5 Minuten knapp werden wird, senkt sie das Gebot jetzt schon, um nicht in Panik zu geraten. Sie plant voraus, statt nur zu reagieren.

3. Der „Selbst-Verbesserer" (Offline Policy Evolution mit GRPO)

Das ist der coolste Teil. Normalerweise muss eine KI erst online (im echten Leben) Fehler machen, um zu lernen. Das ist teuer und riskant.

SEGB lernt alleine in einer Simulation, ohne jemals online gewesen zu sein.

Die Analogie: Stellen Sie sich einen Schachspieler vor, der tausende Partien gegen sich selbst spielt, bevor er das erste Mal gegen einen Menschen antritt.
SEGB nutzt eine Methode namens GRPO. Es nimmt die Strategie, die es aus den alten Daten gelernt hat, und sagt: „Was wäre, wenn ich hier etwas anders mache?" Es probiert verschiedene Varianten aus (in Gedanken), bewertet sie mit einem strengen Schiedsrichter (einem „Critic") und verbessert sich selbst.
Das Ergebnis: Es findet Strategien, die in den alten Daten gar nicht vorkamen, aber viel besser sind. Es entwickelt sich weiter, ohne dass ein Mensch eingreifen muss.

Das Ergebnis in der echten Welt

Die Autoren haben SEGB bei JD.com (einem riesigen chinesischen Online-Händler, ähnlich wie Amazon) getestet.

Das Ergebnis: Das System war nicht nur schneller und genauer, sondern hat den Wert der Werbung um über 10 % gesteigert.
Das bedeutet: Für das gleiche Budget bekamen die Werbetreibenden deutlich mehr Umsatz.

Zusammenfassung in einem Satz

SEGB ist wie ein Super-Stratege, der erst die nächsten Schritte simuliert (Zeitmaschine), dann basierend auf dieser Vorhersage kluge Entscheidungen trifft (proaktiver Navigator) und sich dabei selbstständig verbessert, indem er in Gedanken tausende Szenarien durchspielt (Selbst-Verbesserer), bevor er überhaupt einen einzigen Cent im echten Leben ausgibt.

Es ist der Unterschied zwischen einem Fahrer, der nur auf die Straße schaut, und einem Piloten, der die Wetterkarte, den Treibstoff und die Flugroute im Voraus berechnet, um perfekt zu landen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Im Bereich des Online-Advertising ist das automatisierte Bieten (Auto-Bidding) ein entscheidender Prozess, bei dem Werbetreibende in Echtzeit Gebote für Werbeeinblendungen (Impressionen) abgeben müssen. Das Ziel ist die Maximierung des Gesamtwerts (z. B. Conversions) unter Einhaltung von Budgetbeschränkungen und KPIs (z. B. Kosten pro Aktion).

Herausforderungen bestehen darin, dass dies ein langfristiger sequenzieller Entscheidungsprozess in dynamischen, nicht-stationären Umgebungen ist. Bestehende Ansätze im Bereich des Offline-Verstärkungslernens (Offline RL) und generativer Modelle weisen folgende Mängel auf:

Fehlende Kurzfrist-Prognose: Offline trainierte generative Strategien fehlt oft die Fähigkeit, kurzfristige zukünftige Zustände vorherzusagen, was für dynamische Märkte essenziell ist.
Kausale Inkonsistenzen: Globale Diffusionsmodelle können zeitliche Abhängigkeiten verletzen (z. B. dass das Budget monoton sinken muss).
Explorationsdilemma: Reine Offline-Methoden sind oft auf die Qualität des statischen Datensatzes beschränkt und können keine überlegenen Strategien entdecken, die nicht im Datenmaterial vorhanden sind, ohne auf externe Simulatoren oder Online-Interaktion angewiesen zu sein.

2. Methodik: Das SEGB-Framework

Die Autoren schlagen SEGB (Self-Evolved Generative Bidding) vor, ein synergistisches Offline-Framework, das in drei miteinander verknüpfte Stufen unterteilt ist. Das Ziel ist es, die Politik (Policy) vollständig offline zu verbessern, bevor sie online eingesetzt wird.

Stufe 1: Hochpräzise Zustandsplanung durch Local Autoregressive Diffusion (LAD)

Um das Planungsdefizit zu beheben, wird ein Local Autoregressive Diffusion (LAD)-Modell eingeführt.

Problem bei Standard-Diffusion: Herkömmliche Diffusionsmodelle generieren oft ganze Trajektorien global, was kausale Constraints (wie die Monotonie des Budgets) verletzen kann.
LAD-Lösung: LAD generiert zukünftige Zustände lokal und autoregressiv. Jeder zukünftige Zustand $s_{t+1}$ wird basierend auf dem historischen Kontext $s_{<t}$ vorhergesagt.
Vorteil: Dies gewährleistet hochfidele, kausal konsistente Trajektorien, die als realistische „Sandbox" für die nachfolgende Entscheidungsfindung dienen, ohne gegen physikalische oder geschäftliche Constraints zu verstoßen.

Stufe 2: Vorausschauende Aktionsgenerierung durch Next-State-Aware Decision Transformer

Die generierten zukünftigen Zustände werden in einen Decision Transformer (DT) integriert.

Innovation: Der Standard-DT ist reaktiv und basiert nur auf der Vergangenheit und einem langfristigen Ziel (Return-to-Go, RTG). SEGB erweitert dies zu einem Next-State-Aware DT.
Dual-Signal-Steuerung: Die Policy wird nicht nur auf das langfristige RTG, sondern explizit auf den vorhergesagten nächsten Zustand $\hat{s}_{t+1}$ (aus dem LAD-Modell) konditioniert.
Effekt: Dies wandelt den Agenten von einem reaktiven Imitator in einen proaktiven Planer um. Der Agent erhält ein konkretes, kurzfristiges Ziel (z. B. verbleibendes Budget im nächsten Schritt), was das Lernen in Umgebungen mit spärlichen Belohnungen (sparse rewards) stabilisiert und taktische Anpassungen ermöglicht.

Stufe 3: Offline-Policy-Evolution durch GRPO

Um die Grenzen des statischen Datensatzes zu überwinden, wird die Policy weiterentwickelt, ohne Online-Exploration zu benötigen.

Kritiker-Training (IQL): Zuerst wird ein robuster Q-Funktion-Kritiker mittels Implicit Q-Learning (IQL) trainiert. IQL vermeidet die Bewertung von Out-of-Distribution (OOD) Aktionen durch Expectile-Regression.
Policy-Optimierung (GRPO): Anschließend wird die Policy mittels Group Relative Policy Optimization (GRPO) feinabgestimmt.
- Anstatt auf Online-Daten zu warten, nutzt GRPO den offline trainierten IQL-Kritiker als festen „Wert-Oracle".
- Die Methode generiert Gruppen von Aktionen, berechnet die Vorteile (Advantages) basierend auf dem Kritiker und optimiert die Policy, um diese Vorteile zu maximieren, unter Verwendung von KL-Divergenz-Strafen, um zu weit vom Referenzmodell abzuweichen.
Ergebnis: Die Policy kann Strategien entdecken, die besser sind als die im ursprünglichen Datensatz gezeigten, rein offline.

3. Hauptbeiträge

End-to-End Framework: Einführung von SEGB, das LAD mit zukunftsorientiertem Reinforcement Learning kombiniert, um sowohl hochpräzise kausale Planung als auch proaktive Entscheidungsfindung zu ermöglichen.
Offline-Evolution ohne Simulatoren: Durch die Integration von GRPO und IQL kann die Policy vollständig offline verbessert werden, um über die Limitationen des Trainingsdatensatzes hinauszugehen, ohne externe Simulatoren oder Online-Interaktion zu benötigen.
Praktische Validierung: Der Ansatz wurde nicht nur auf Benchmarks getestet, sondern auch in einem groß angelegten Online-A/B-Test auf der JD.com-Plattform erfolgreich eingesetzt.

4. Ergebnisse

Benchmark-Leistung (AuctionNet): SEGB übertrifft state-of-the-art Baselines (wie IQL, CQL, DiffBid, Decision Transformer) konsistent.
- Auf dem AuctionNet-Datensatz (100% Budget) erreichte SEGB einen Score von 355,99, was eine Verbesserung von 2,57% gegenüber dem besten Baseline (GAS mit 347,07) darstellt.
- Auf dem spärlichen Datensatz (AuctionNet-Sparse) war die Verbesserung sogar noch deutlicher (+12,25%), was die Stärke der kurzfristigen Vorhersage bei fehlenden langfristigen Belohnungen unterstreicht.
Ablationsstudie:
- Das Entfernen von GRPO führte zu einem Rückgang von ca. 9,6 Punkten (Bestätigung des Wertes der Offline-Evolution).
- Das Entfernen der Vorhersage (Foresight) führte zu einem Rückgang von 10,5 Punkten.
- Der Ersatz von LAD durch ein globales Diffusionsmodell führte zu einem massiven Einbruch (-14,5 Punkte), was die Notwendigkeit der kausalen Autoregression beweist.
Online A/B-Test (JD.com):
- In einem Live-Test auf der JD.com-Plattform erzielte SEGB eine Steigerung der Zielkosten (Target Cost) um +10,19%.
- Die Latenz lag bei unter 37,5 ms (P99), was die Echtzeitanforderungen (<100 ms) erfüllt.
- Der Ansatz zeigte auch starke Robustheit bei „Cold-Start"-Kampagnen (neue Kampagnen ohne historische Daten) mit einer Steigerung von +18,03%.

5. Bedeutung und Fazit

SEGB adressiert kritische Lücken im automatisierten Bieten, indem es die Lücke zwischen Offline-Training und Online-Einsatz schließt.

Paradigmenwechsel: Es bewegt sich weg von rein reaktiven Modellen hin zu proaktiven, planenden Agenten, die zukünftige Zustände antizipieren.
Effizienz: Es demonstriert, dass komplexe, evolutionäre Verbesserungen von Policies rein offline möglich sind, was das Risiko und die Kosten von Online-Exploration eliminiert.
Geschäftswert: Der signifikante Anstieg der Zielkosten in einer realen, großflächigen Umgebung beweist, dass generative KI-Methoden in der kommerziellen Praxis messbaren Wert liefern können.

Zusammenfassend bietet SEGB einen neuen Blueprint für komplexe sequenzielle Entscheidungsprobleme, indem es Planung (LAD), Voraussicht (Next-State-Awareness) und Evolution (GRPO) in einem einzigen, robusten Framework vereint.

SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion

1. Die „Zeitmaschine" (LAD – Der lokale Autoregressive Diffusions-Planer)

2. Der „Zukunfts-bewusste Navigator" (Next-State-Aware Decision Transformer)

3. Der „Selbst-Verbesserer" (Offline Policy Evolution mit GRPO)

Das Ergebnis in der echten Welt

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: Das SEGB-Framework

Stufe 1: Hochpräzise Zustandsplanung durch Local Autoregressive Diffusion (LAD)

Stufe 2: Vorausschauende Aktionsgenerierung durch Next-State-Aware Decision Transformer

Stufe 3: Offline-Policy-Evolution durch GRPO

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Complexity of Classical Acceleration for ℓ1\ell_1ℓ1​-Regularized PageRank

MapTab: Are MLLMs Ready for Multi-Criteria Route Planning in Heterogeneous Graphs?

Language Guided Adversarial Purification

Graph-based Active Learning for Entity Cluster Repair

Neural Green's Operators for Parametric Partial Differential Equations

Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank