SEGB: Self-Evolved Generative Bidding with Local Autoregressive Diffusion

Die Arbeit stellt SEGB vor, einen selbstlernenden Rahmen für das automatische Gebotswesen, der durch lokale autoregressive Diffusion zukünftige Zustände synthetisiert und die Gebotsstrategie rein offline weiterentwickelt, wodurch sie in Tests und einem groß angelegten A/B-Test signifikant bessere Ergebnisse als bestehende Methoden erzielt.

Yulong Gao, Wan Jiang, Mingzhe Cao, Xuepu Wang, Zeyu Pan, Haonan Yang, Ye Liu, Xin Yang

Veröffentlicht 2026-02-27
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Auktionsmeister, der für einen Werbetreibenden arbeitet. Ihr Job ist es, in Echtzeit zu entscheiden, wie viel Geld Sie für eine Anzeige bieten sollen, die gerade auf einem Bildschirm erscheint.

Das Problem? Die Welt ist chaotisch.

  1. Das Budget ist begrenzt: Sie haben nur eine bestimmte Summe pro Tag.
  2. Die Zukunft ist ungewiss: Sie wissen nicht, welche Anzeigen als Nächstes kommen oder ob der Nutzer wirklich kauft.
  3. Der Druck ist hoch: Wenn Sie zu wenig bieten, verpassen Sie den Kunden. Wenn Sie zu viel bieten, ist Ihr Budget am Mittag schon leer.

Bisherige KI-Systeme waren wie Fahrer, die nur in den Rückspiegel schauen. Sie lernten aus vergangenen Fahrten (Daten) und versuchten, das zu wiederholen, was früher gut funktioniert hat. Aber wenn sich die Straßenverhältnisse (der Markt) plötzlich ändern, geraten sie in Panik, weil sie nicht wissen, was um die nächste Ecke passiert.

Hier kommt SEGB ins Spiel. Der Name steht für „Selbst-entwickelndes Generatives Gebot". Man kann sich SEGB wie einen visionären Generalstabschef vorstellen, der drei superkräfte besitzt:

1. Die „Zeitmaschine" (LAD – Der lokale Autoregressive Diffusions-Planer)

Stellen Sie sich vor, Sie planen eine Reise. Ein normaler Planer würde versuchen, die ganze Reise von A nach Z auf einmal zu malen. Das führt oft zu Unsinn (z. B. dass Sie plötzlich 1000 km ohne Benzin fahren).

SEGB nutzt eine Zeitmaschine, die aber sehr vorsichtig ist. Sie schaut nicht auf die ganze Reise, sondern nur auf die nächste Kurve.

  • Wie es funktioniert: Die KI simuliert die nächsten Momente: „Wenn ich jetzt 5 Euro biete, wie sieht mein Budget in 10 Sekunden aus? Wie viele Klicks habe ich dann?"
  • Der Vorteil: Sie erzeugt keine wilden Träume, sondern realistische, logische Szenarien, die den Gesetzen der Physik (z. B. Budget kann nur sinken, nicht steigen) folgen. Sie hat also eine klare Sicht auf die unmittelbare Zukunft.

2. Der „Zukunfts-bewusste Navigator" (Next-State-Aware Decision Transformer)

Frühere Systeme waren wie reaktive Autopiloten: „Oh, ich habe viel Geld übrig, also biete ich hoch!" oder „Oh, das Budget ist fast leer, also biete ich gar nichts!" Sie reagierten nur auf das, was war.

SEGB ist ein proaktiver Navigator. Dank der „Zeitmaschine" weiß er, was kommen wird.

  • Die Analogie: Ein guter Autofahrer bremst nicht erst, wenn er vor dem Hindernis steht, sondern wenn er sieht, dass die Straße gleich enger wird.
  • SEGB nutzt die Vorhersage der Zeitmaschine, um strategisch zu handeln. Wenn die KI sieht, dass das Budget in 5 Minuten knapp werden wird, senkt sie das Gebot jetzt schon, um nicht in Panik zu geraten. Sie plant voraus, statt nur zu reagieren.

3. Der „Selbst-Verbesserer" (Offline Policy Evolution mit GRPO)

Das ist der coolste Teil. Normalerweise muss eine KI erst online (im echten Leben) Fehler machen, um zu lernen. Das ist teuer und riskant.

SEGB lernt alleine in einer Simulation, ohne jemals online gewesen zu sein.

  • Die Analogie: Stellen Sie sich einen Schachspieler vor, der tausende Partien gegen sich selbst spielt, bevor er das erste Mal gegen einen Menschen antritt.
  • SEGB nutzt eine Methode namens GRPO. Es nimmt die Strategie, die es aus den alten Daten gelernt hat, und sagt: „Was wäre, wenn ich hier etwas anders mache?" Es probiert verschiedene Varianten aus (in Gedanken), bewertet sie mit einem strengen Schiedsrichter (einem „Critic") und verbessert sich selbst.
  • Das Ergebnis: Es findet Strategien, die in den alten Daten gar nicht vorkamen, aber viel besser sind. Es entwickelt sich weiter, ohne dass ein Mensch eingreifen muss.

Das Ergebnis in der echten Welt

Die Autoren haben SEGB bei JD.com (einem riesigen chinesischen Online-Händler, ähnlich wie Amazon) getestet.

  • Das Ergebnis: Das System war nicht nur schneller und genauer, sondern hat den Wert der Werbung um über 10 % gesteigert.
  • Das bedeutet: Für das gleiche Budget bekamen die Werbetreibenden deutlich mehr Umsatz.

Zusammenfassung in einem Satz

SEGB ist wie ein Super-Stratege, der erst die nächsten Schritte simuliert (Zeitmaschine), dann basierend auf dieser Vorhersage kluge Entscheidungen trifft (proaktiver Navigator) und sich dabei selbstständig verbessert, indem er in Gedanken tausende Szenarien durchspielt (Selbst-Verbesserer), bevor er überhaupt einen einzigen Cent im echten Leben ausgibt.

Es ist der Unterschied zwischen einem Fahrer, der nur auf die Straße schaut, und einem Piloten, der die Wetterkarte, den Treibstoff und die Flugroute im Voraus berechnet, um perfekt zu landen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →