LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind der Chef eines riesigen Online-Werbemarktplatzes, auf dem Tausende von Werbetreibenden gleichzeitig um die Aufmerksamkeit von Nutzern kämpfen. Jeder Werbetreibende hat ein begrenztes Budget und ein Ziel: So viele Kunden wie möglich gewinnen, ohne dabei die Kosten pro Kunde (CPA) zu sprengen.

Früher haben erfahrene Menschen manuell die Gebote gesetzt. Aber heute ist der Markt so schnell und komplex, dass kein Mensch mehr mithalten kann. Man braucht einen Roboter, der das für sie übernimmt. Das Problem ist: Die bisherigen Roboter (basierend auf reinen Daten und Mathematik) sind oft wie blinde Passagiere. Sie wissen nicht, warum sie etwas tun, und wenn die Situation sich ändert, machen sie dumme Fehler – wie zum Beispiel, das Budget zu verschwenden, obwohl sie eigentlich sparen müssten.

Hier kommt die neue Erfindung aus dem Papier ins Spiel: LBM (Large Auto-Bidding Model). Man kann es sich wie ein zweigeteiltes Team aus einem Philosophen und einem Handwerker vorstellen.

1. Das Problem: Der "Black Box"-Roboter

Die alten Methoden waren wie ein Auto ohne Lenkrad, das nur auf den Boden schaut. Sie haben gelernt, indem sie Millionen von Fahrten nachgeahmt haben. Aber wenn eine neue, unbekannte Kurve kommt, geraten sie in Panik. Sie verstehen den Kontext nicht. Wenn der Preis für Werbung plötzlich steigt, wissen sie nicht, dass sie vorsichtiger werden müssen, weil sie nur Zahlen sehen, keine Zusammenhänge.

2. Die Lösung: Das LBM-Team (Denken & Handeln)

Die Autoren haben ein System gebaut, das zwei große Sprach-KI-Modelle (LLMs) nutzt, aber sie in zwei verschiedene Rollen aufteilt, damit sie nicht überfordert sind.

Der Philosoph: LBM-Think (Das Gehirn)

Stellen Sie sich den LBM-Think als einen erfahrenen Strategen vor, der einen Kaffee trinkt und über die Situation nachdenkt.

Was er tut: Er liest die Geschichte der letzten Gebote und die aktuellen Zahlen (Budget, verbleibende Zeit, Kosten).
Seine Superkraft: Er nutzt sein menschliches Wissen (das in der KI trainiert ist), um zu verstehen, was los ist. Er denkt: "Aha, wir haben noch viel Budget, aber die Kosten sind gestiegen. Wir müssen vorsichtiger werden."
Das Ergebnis: Er schreibt einen Gedankengang (Chain-of-Thought). Er sagt nicht sofort "Gib 5 Euro aus", sondern erklärt: "Die Kosten sind hoch, also sollten wir das Gebot leicht senken, um das Budget zu schonen."
Wichtig: Dieser Philosoph muss nicht in Millisekunden antworten. Er kann sich Zeit lassen, bevor der nächste Schritt kommt.

Der Handwerker: LBM-Act (Die Hände)

Stellen Sie sich den LBM-Act als einen schnellen, präzisen Handwerker vor, der genau weiß, wie man den Hebel bewegt.

Was er tut: Er bekommt zwei Dinge:
1. Die aktuellen, harten Zahlen (die Situation in Echtzeit).
2. Den Gedankengang des Philosophen (die Strategie).
Seine Superkraft: Er kombiniert beides. Er versteht die Sprache des Philosophen ("Senken") und setzt sie in eine exakte, numerische Zahl um (z. B. "Gib 4,82 Euro").
Die Technik: Damit der Handwerker die Sprache und die Zahlen gleichzeitig versteht, nutzen die Autoren eine Art "Dolmetscher-Brille" (Dual Embedding). Diese wandelt Zahlen so um, dass sie für die KI genauso leicht zu lesen sind wie Wörter.

3. Der Trainings-Trick: Lernen ohne Risiko (GQPO)

Ein großes Problem bei KI ist, dass sie manchmal halluziniert (Dinge erfindet), die nicht stimmen. Wenn ein Roboter im echten Leben falsch entscheidet, verliert das Unternehmen Geld. Man kann ihn also nicht einfach so "ausprobieren" lassen.

Die Autoren haben einen cleveren Trick namens GQPO erfunden:

Statt zu fahren, schauen wir nur auf die Karte: Anstatt den Roboter im echten Markt riskante Fahrten machen zu lassen, simulieren sie die Ergebnisse auf Basis von alten Daten.
Der Vergleich: Der Philosoph (LBM-Think) denkt sich verschiedene Strategien aus. Ein "Schiedsrichter" (ein Q-Wert-Modell) bewertet dann: "Welche dieser Strategien hätte in der Vergangenheit am besten funktioniert?"
Die Belohnung: Nur die Strategien, die wirklich gut waren, werden dem Philosophen als "richtig" anerkannt und er lernt daraus. So wird er klüger, ohne dass jemals echtes Geld verloren ging.

Zusammenfassung in einer Metapher

Stellen Sie sich einen Formel-1-Rennwagen vor:

Die alten Methoden waren wie ein Auto mit einem Computer, der nur die Drehzahl überwacht. Wenn die Straße nass wird, rutscht es, weil der Computer nicht weiß, was "nass" bedeutet.
Das LBM ist wie ein Team aus einem Weltmeister-Strategen (Think) und einem Profi-Piloten (Act).
- Der Strategen sieht die Wolken, riecht den Regen und sagt: "Pass auf, es wird nass, wir müssen langsamer werden und die Reifen wechseln."
- Der Pilot hört das, versteht den Kontext und drückt genau den richtigen Gaspedal-Hebel, um sicher und schnell zu bleiben.

Das Fazit: Durch diese Aufteilung in "Denken" (Verstehen der Situation) und "Handeln" (Präzises Setzen des Gebots) können Werbetreibende ihre Budgets viel effizienter nutzen, weniger Fehler machen und sich auch in unvorhersehbaren Situationen behaupten. Es ist der erste Schritt, um KI nicht nur als Rechenmaschine, sondern als echten, verstehenden Partner im Werbegeschäft zu nutzen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting" auf Deutsch:

Titel: LBM: Hierarchisches Großes Auto-Bidding-Modell durch Denken und Handeln

1. Problemstellung

Der Online-Werbemarkt hat sich durch die Digitalisierung extrem ausgeweitet, was zu intensiven Auktionen für Millionen von Impressionen führt. Traditionelle manuelle Gebotsstrategien sind aufgrund der Komplexität und Geschwindigkeit nicht mehr praktikabel.

Herausforderungen bestehender Methoden: Aktuelle Auto-Bidding-Systeme basieren meist auf Offline-Reinforcement-Learning (RL) oder generativen Modellen (z. B. Decision Transformer). Diese leiden jedoch unter folgenden Mängeln:
- Black-Box-Verhalten: Sie handeln oft kontraintuitiv (z. B. Gebote erhöhen, wenn die Kosten pro Aktion (CPA) bereits die Grenze überschreiten), da sie nur auf Belohnungssignalen basieren und das Aufgabenverständnis fehlt.
- Generalisierung: Sie sind stark durch die Abdeckung der Trainingsdaten eingeschränkt und versagen oft in dynamischen Umgebungen oder bei unvorhergesehenen Szenarien.
- Einschränkungen von LLMs: Der direkte Einsatz von Large Language Models (LLMs) für Auto-Bidding ist schwierig, da diese keine spezifischen Gebotsdaten kennen, zu Halluzinationen neigen und Schwierigkeiten haben, präzise numerische Aktionen in einem kontinuierlichen Raum zu generieren (Tokenisierung von Zahlen ist ineffizient).

2. Methodik: Das LBM-Framework

Die Autoren schlagen ein hierarchisches Großes Auto-Bidding-Modell (LBM) vor, das die reasoning-Fähigkeiten von LLMs mit präziser Aktionsgenerierung kombiniert. Das System besteht aus zwei modularen Komponenten:

A. Architektur:

LBM-Think (High-Level): Ein größeres LLM, das für das logische Schlussfolgern (Reasoning) zuständig ist. Es analysiert historische Leistungsdaten und generiert einen Chain-of-Thought (CoT). Dieser CoT fasst den Gebotsstatus zusammen und leitet eine grobe Anpassungsrichtung (z. B. „Gebot erhöhen" oder „senken") ab. Dieser Prozess kann asynchron vor dem eigentlichen Entscheidungsschritt erfolgen.
LBM-Act (Low-Level): Ein kleineres, effizientes LLM, das für die Generierung der finalen numerischen Gebotsparameter zuständig ist. Es empfängt den vom Think-Modul generierten CoT sowie den aktuellen numerischen Zustand (Zustandsvektor, Historie).

B. Schlüsseltechniken:

Dual-Embedding-Mechanismus: Um die Effizienz zu steigern, werden Sprache (CoT) und numerische Daten nicht in ein einziges Token-Format umgewandelt. Stattdessen werden zwei separate Embedding-Schichten verwendet:
- Eine Token-Embedding-Schicht für den sprachlichen CoT.
- Eine Decision-Embedding-Schicht (ein MLP), die numerische Sequenzen in Vektoren projiziert, die der Größe der Token-Embeddings entsprechen.
- Diese beiden Modalitäten werden dann durch Transformer-Schichten fusioniert, um präzise Aktionen zu generieren.
GQPO (Group relative-Q Policy Optimization): Da ein direktes Fine-Tuning von LLMs in der realen Werbeumgebung zu riskant ist, wird eine offline Fine-Tuning-Methode für das LBM-Think-Modell entwickelt.
- Anstatt reale Rollouts durchzuführen, wird ein Q-Wert-Modell (trainiert mit IQL) verwendet, um den Wert von Aktionen zu schätzen.
- Es werden mehrere CoT-Varianten generiert und deren relativer Q-Wert ( $\Delta Q$ ) berechnet (Unterschied zwischen Aktion mit CoT und Basisaktion).
- Das LBM-Think-Modell wird so optimiert, dass es CoTs generiert, die einen positiven $\Delta Q$ maximieren. Dies reduziert Halluzinationen und verbessert die reasoning-Qualität rein offline.

C. Trainingsprozess (Zwei-Stufen-Strategie):

Stufe 1: Training des LBM-Act-Modells mittels sprachgeführter Entscheidungstraining (Language-guided Decision Training) mit dem Dual-Embedding-Mechanismus.
Stufe 2: Fine-Tuning des LBM-Think-Modells mittels GQPO, um die Qualität der generierten Reasoning-Pfade zu verbessern.

3. Hauptbeiträge

Hierarchische Architektur: Einführung eines getrennten Think- und Act-Modells, das die reasoning-Fähigkeiten von LLMs von der präzisen numerischen Steuerung entkoppelt.
Dual-Embedding-Mechanismus: Eine effiziente Methode zur Fusion von Sprach- und Numerik-Daten, die den Overhead der Tokenisierung langer numerischer Sequenzen vermeidet.
GQPO (Offline Fine-Tuning): Eine stabile Methode zur Verbesserung der Reasoning-Fähigkeiten von LLMs in Auto-Bidding-Szenarien ohne riskante Online-Interaktionen, indem relative Q-Werte als Feedback-Signal genutzt werden.
Überlegene Generalisierung: Nachweis, dass LLM-basierte Backbones besser mit unbekannten Szenarien umgehen können als reine RL-Methoden, da sie auf menschlichem Vorwissen und logischem Schlussfolgern basieren.

4. Ergebnisse

Die Methode wurde auf dem Benchmark AuctionNet (basierend auf realen Werbedaten von Alibaba) getestet.

Vergleich mit Baselines: LBM übertrifft sowohl traditionelle Offline-RL-Methoden (wie CQL, IQL, BCQ) als auch generative Modelle (Decision Transformer, Diffuser) und reine LLM-Ansätze (Prompting, SFT, GRPO).
Metriken:
- Conversions (Konversionen): LBM (GQPO) erzielt die höchsten Werte (z. B. 382 vs. 371 bei DT-Q im dichten Szenario).
- Score (Kombination aus Konversionen und CPA-Einhaltung): LBM erreicht den besten Score (348), was zeigt, dass es nicht nur Konversionen maximiert, sondern auch die Budget- und CPA-Beschränkungen strikter einhält.
- Budget-Nutzung: LBM nutzt das Budget effizienter aus (Utilization > 0.93), während andere Methoden oft zu vorsichtig oder zu aggressiv sind.
Verhaltensanalyse: Visualisierungen zeigen, dass das mit GQPO feinabgestimmte LBM logisch konsistent handelt (z. B. Gebote senken, wenn CPA > Zielwert), während reine DT-Modelle oder ungesteuerte LLMs hier oft inkonsistent reagieren.
Effizienz: Die Trennung von Think und Act ermöglicht eine schnelle Inferenz, da das Act-Modell klein ist und das Think-Modell asynchron läuft.

5. Bedeutung und Ausblick

Das Paper demonstriert einen Paradigmenwechsel im Auto-Bidding: Weg von rein datengetriebenen Black-Box-Modellen hin zu hybriden Systemen, die logisches Schlussfolgern nutzen.

Industrielle Relevanz: Die Methode adressiert das Problem der „Black-Box"-Entscheidungen, die das Vertrauen von Werbetreibenden untergraben, indem sie nachvollziehbare Reasoning-Pfade (CoT) liefert.
Sicherheit: Durch den rein offline arbeitenden Fine-Tuning-Ansatz (GQPO) werden Risiken vermieden, die mit Online-Exploration in realen Auktionen verbunden wären.
Zukunft: Die Arbeit legt den Grundstein für den Einsatz von LLMs in komplexen, kontinuierlichen Steuerungsproblemen, bei denen sowohl präzise numerische Kontrolle als auch tiefes kontextuelles Verständnis erforderlich sind.

Zusammenfassend bietet LBM eine robuste, effiziente und generalisierbare Lösung für das Auto-Bidding, die die Stärken von Large Language Models (Reasoning) mit der Präzision von spezialisierten Entscheidungsmodellen vereint.

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

1. Das Problem: Der "Black Box"-Roboter

2. Die Lösung: Das LBM-Team (Denken & Handeln)

Der Philosoph: LBM-Think (Das Gehirn)

Der Handwerker: LBM-Act (Die Hände)

3. Der Trainings-Trick: Lernen ohne Risiko (GQPO)

Zusammenfassung in einer Metapher

Titel: LBM: Hierarchisches Großes Auto-Bidding-Modell durch Denken und Handeln

1. Problemstellung

2. Methodik: Das LBM-Framework

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA