Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un annonceur publicitaire sur Internet (comme sur Taobao ou Alibaba). Votre objectif est d'acheter des espaces publicitaires (des "impressions") pour montrer vos produits aux bonnes personnes, tout en respectant un budget strict (disons 1000 € par jour).

Le problème ? Les enchères se déroulent en quelques millisecondes, des milliers de fois par jour. C'est trop rapide pour un humain. Il faut un robot (un algorithme) qui décide instantanément : "Dois-je enchérir 0,50 € ou 1,20 € pour cette publicité ?"

Le Problème : Le Dilemme du Chef Cuisinier

Jusqu'à présent, les meilleures méthodes pour entraîner ces robots ressemblaient à un chef cuisinier qui n'a jamais goûté à la nourriture qu'il prépare.

L'approche classique (Apprentissage par Renforcement) : C'est comme un apprenti cuisinier qui doit deviner le goût d'un plat en se basant sur des notes théoriques. C'est souvent instable : il peut faire une erreur énorme, gâcher des ingrédients (votre budget), et il faut beaucoup de temps pour qu'il apprenne.
L'approche récente (AIGB - "Génération") : C'est mieux. On donne au chef un livre de recettes parfaites (des données historiques de quand les enchères ont bien fonctionné). Le chef apprend à imiter ces recettes. C'est très stable.
- Le hic : Le chef est bloqué dans le livre. S'il veut essayer une nouvelle recette qui pourrait être encore meilleure, il a peur de sortir du livre. Il ne sait pas si son invention sera bonne ou si elle va brûler la cuisine. Il reste donc coincé avec des recettes "moyennes" mais sûres.

La Solution : AIGB-Pearl (Le Chef avec un Dégustateur et une Règle)

Les auteurs de ce papier proposent une nouvelle méthode appelée AIGB-Pearl. Imaginez que vous équipez votre chef de deux outils magiques :

1. Le "Dégustateur" (L'Évaluateur de Trajectoire)

Au lieu de laisser le chef deviner, vous lui donnez un Dégustateur expert.

Ce Dégustateur a lu des milliers de livres de recettes.
Quand le chef propose une nouvelle idée (une nouvelle séquence d'enchères), le Dégustateur lui dit : "Tiens, cette idée vaut 8/10, celle-ci vaut 9/10".
Cela permet au chef de savoir immédiatement si son invention est bonne, sans avoir à la tester sur de vrais clients (ce qui coûterait cher).

2. La "Règle de Sécurité" (La Contrainte KL-Lipschitz)

C'est la partie la plus brillante. Le chef est très créatif, mais s'il est trop créatif, il peut inventer des plats toxiques.

La Règle : Le chef a le droit d'inventer de nouvelles recettes, MAIS il doit rester dans un "cercle de sécurité" autour des meilleures recettes du livre.
L'analogie : Imaginez que vous êtes dans un parc. Vous avez le droit de courir partout pour trouver le plus bel arbre, mais vous ne pouvez pas sortir du parc (pour ne pas vous perdre dans la forêt) et vous ne pouvez pas faire de bonds trop grands (pour ne pas vous casser la jambe).
En termes techniques, cela s'appelle une contrainte Lipschitz. Cela garantit que si le chef change un tout petit peu sa recette, le résultat ne changera pas de façon catastrophique.

Comment ça marche en pratique ?

Entraînement : Le robot (le chef) génère des scénarios d'enchères.
Évaluation : Le Dégustateur note ces scénarios.
Optimisation : Le robot essaie d'améliorer ses notes, mais il est obligé de respecter la Règle de Sécurité. Il ne peut pas faire de "sauts" trop gros par rapport à ce qu'il connaît déjà.
Résultat : Le robot explore de nouvelles idées (pour gagner plus d'argent) mais reste toujours dans une zone sûre où il sait qu'il ne va pas perdre tout son budget.

Les Résultats (La Preuve par l'Expérience)

Les chercheurs ont testé cette méthode dans deux environnements :

Un simulateur (une cuisine de test) : Le robot a battu tous les autres champions, augmentant les ventes de plus de 4 %.
Le monde réel (sur Taobao, avec des millions d'euros en jeu) : C'est là que ça devient impressionnant. En testant la méthode sur de vrais annonceurs pendant 19 jours :
- Les ventes (GMV) ont augmenté de 3 %.
- Le nombre de clients satisfaits a augmenté.
- Et le plus important : Le budget n'a pas été gaspillé. Le robot a dépensé l'argent exactement comme prévu.

En Résumé

Ce papier dit essentiellement : "Pour faire un meilleur robot d'enchères, ne le laissez pas juste copier le passé, et ne le laissez pas non plus deviner au hasard. Donnez-lui un expert pour le noter, et une règle stricte pour l'empêcher de faire des bêtises."

C'est une façon intelligente de trouver l'équilibre parfait entre l'innovation (trouver de meilleures stratégies) et la sécurité (ne pas perdre d'argent), ce qui est crucial quand on gère des budgets publicitaires réels.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Le auto-bidding (enchère automatique) est un outil crucial pour les annonceurs afin d'optimiser leurs performances publicitaires dans des environnements dynamiques. Le problème est formulé comme une prise de décision séquentielle hors ligne (offline), visant à maximiser la valeur cumulative des impressions remportées sous contrainte de budget.

Limites des méthodes RL Offline classiques : Les approches basées sur l'apprentissage par renforcement (RL) offline souffrent souvent d'instabilité d'entraînement due au "bootstrapping" (estimation de valeurs par rétropropagation) et sont sensibles au problème hors distribution (OOD), où les politiques dérivent dangereusement des données d'entraînement.
Limites des méthodes de Bidding Génératif (AIGB) : Les méthodes récentes comme AIGB (AI-Generated Bidding) traitent le problème comme une tâche de génération de trajectoires conditionnelle. Bien qu'elles évitent le bootstrapping et soient plus stables, elles se contentent d'imiter les trajectoires du jeu de données offline. Elles ne possèdent pas de mécanisme pour explorer au-delà de ces données statiques ou d'améliorer la qualité de génération en fonction d'un signal de récompense explicite, ce qui limite leur potentiel de performance.

Question centrale : Comment intégrer l'optimisation de politique (policy optimization) dans un modèle génératif pour permettre une exploration sûre et efficace au-delà du jeu de données offline, sans compromettre la sécurité ?

2. Méthodologie : AIGB-Pearl

Les auteurs proposent AIGB-Pearl (Planning with EvaluAtor via RL), une méthode hybride qui combine la planification générative et l'optimisation de politique via un évaluateur de trajectoires.

A. Architecture Globale

Le système repose sur deux composants principaux :

Un Évaluateur de Trajectoires (Evaluator) : Un modèle supervisé qui apprend à prédire la qualité d'une trajectoire (score de récompense normalisée) à partir de données offline.
Un Planificateur (Planner) : Un modèle génératif (basé sur un Causal Transformer) qui génère des trajectoires de enchères. Il est entraîné pour maximiser le score prédit par l'évaluateur.

B. Le Cœur Théorique : Maximisation de Score Contrainte

Le défi majeur est d'assurer que le planificateur n'explore pas des régions hors distribution (OOD) où l'évaluateur serait peu fiable. Pour résoudre cela, les auteurs introduisent une maximisation de score contrainte par KL et Lipschitz :

Analyse de la Biais : Les auteurs démontrent théoriquement que l'écart entre la performance réelle et le score prédit par l'évaluateur peut être borné si l'évaluateur et le planificateur respectent certaines propriétés de régularité.
Contrainte de Lipschitz : Pour garantir que de petites variations dans les conditions d'entrée (ex: le budget ou l'état) ne provoquent pas de changements drastiques dans la trajectoire générée ou le score, le planificateur doit respecter une contrainte de Lipschitz.
Contrainte KL (Kullback-Leibler) : Pour éviter que le planificateur ne s'éloigne trop des données d'entraînement, une contrainte KL est imposée pour maintenir la fidélité du comportement (behavior cloning) par rapport au jeu de données offline.

L'objectif d'optimisation devient :
$\max_{\theta} \mathbb{E}_{\tau \sim p_\theta(\tau|y^*)} [\hat{y}_\phi(\tau)]$
Sous les contraintes :

$\mathbb{E}[D_{KL}(p_D(\tau|y) || p_\theta(\tau|y))] \leq \delta_K$ (Fidélité aux données)
$\text{Lip}_{W1}(p_\theta(\tau|y)) \leq L_p$ (Stabilité et régularité)

C. Algorithme Pratique : Couplage Synchrone

Pour implémenter efficacement la contrainte de Lipschitz sur le planificateur, les auteurs proposent une technique de couplage synchrone :

Au lieu d'utiliser des couplages aléatoires pour estimer la distance de Wasserstein (nécessaire pour la pénalité Lipschitz), deux trajectoires sont générées à partir de conditions différentes ( $y_1, y_2$ ) mais en utilisant la même séquence de bruit gaussien.
Cela réduit la variance de l'estimation et fournit une borne supérieure plus serrée de la distance de transport, rendant l'entraînement stable et efficace.

3. Contributions Clés

AIGB-Pearl : Une nouvelle méthode de auto-bidding génératif qui intègre l'évaluation de récompense et l'optimisation de politique, permettant une amélioration continue de la qualité de génération au-delà des données offline.
Objectif Théoriquement Fondé : Proposition d'un objectif de maximisation de score avec des contraintes KL et Lipschitz, accompagné d'une borne de sous-optimalité prouvée. Cela garantit que l'exploration reste sûre et que la dégradation des performances est contrôlée.
Algorithme de Couplage Synchrone : Développement d'une méthode pratique pour satisfaire la contrainte de Lipschitz du modèle génératif, essentielle pour la stabilité de l'entraînement.
Validation Expérimentale : Démonstration que la méthode surpasse l'état de l'art (SOTA) tant en simulation qu'en production réelle.

4. Résultats Expérimentaux

Les expériences ont été menées sur des systèmes publicitaires simulés et réels (plateforme Taobao/Alibaba).

Performance Globale (GMV) :
- Simulations : AIGB-Pearl surpasse systématiquement les méthodes de base (USCB, BCQ, CQL, IQL, DiffBid, DT) avec une amélioration relative du GMV allant de +2.09% à +4.62% selon les niveaux de budget.
- Tests A/B Réels : Sur 6 000 annonceurs, AIGB-Pearl a atteint une augmentation du GMV de +3.00% par rapport à DiffBid (la méthode AIGB la plus performante), tout en maintenant le ROI et le coût dans des tolérances acceptables.
- Cas TargetROAS : Sur un problème plus complexe avec contrainte de ROI, l'amélioration du GMV atteint +5.1%.
Généralisation : La méthode montre une meilleure capacité de généralisation sur des annonceurs non présents dans le jeu de données offline, confirmant sa robustesse face aux données hors distribution.
Stabilité d'Entraînement : Contrairement aux méthodes RL offline classiques qui présentent une forte variance entre les différentes graines (seeds), AIGB-Pearl montre des courbes d'apprentissage lisses et cohérentes, évitant les effondrements de performance.
Analyse Ablative :
- Le retrait de la contrainte KL entraîne une baisse de performance et des trajectoires pathologiques (consommation excessive de budget, pacing irrégulier).
- Le retrait de la contrainte Lipschitz dégrade également les résultats, confirmant le rôle crucial de la régularité pour une exploration sûre.

5. Signification et Impact

Ce travail est significatif pour plusieurs raisons :

Sécurité et Fiabilité : Il résout le dilemme fondamental de l'exploration en RL offline : comment chercher de meilleures solutions sans risquer des pertes financières massives dues à des actions hors distribution. Les garanties théoriques (bornes de Lipschitz et KL) offrent une sécurité opérationnelle indispensable pour les systèmes publicitaires réels.
Au-delà de l'Imitation : Il démontre que les modèles génératifs ne doivent pas seulement imiter les données passées, mais peuvent être optimisés pour la performance future grâce à un évaluateur appris, comblant ainsi le fossé entre la génération conditionnelle et l'optimisation de politique.
Adoption Industrielle : Les résultats obtenus sur la plateforme Taobao (des millions de RMB de GMV supplémentaire) prouvent la viabilité et l'efficacité de l'approche dans des environnements de production à très grande échelle.

En résumé, AIGB-Pearl représente une avancée majeure en combinant la stabilité de la modélisation générative avec la puissance de l'optimisation de politique, le tout encadré par des garanties mathématiques rigoureuses pour une application industrielle sûre.