Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un pasticcere che deve vendere torte in una piazza affollata ogni giorno. Hai un budget limitato (i tuoi soldi per gli ingredienti) e vuoi vendere il più possibile senza finire i soldi prima della fine della giornata.

Il problema è che il mercato è caotico: a volte c'è molta gente, a volte poca; a volte i prezzi delle torte salgono, a volte scendono. Devi decidere in tempo reale quanto offrire per ogni torta per vincerla, senza sapere esattamente cosa succederà dopo.

Questo è il problema dell'Auto-bidding (offerta automatica) nella pubblicità online. Le aziende devono decidere quanto pagare per mostrare un annuncio a un utente, con un budget limitato.

Ecco come la carta AIGB-Pearl risolve questo problema, spiegata come una storia:

1. Il Vecchio Metodo: Copiare il Passato (AIGB)

Fino a poco tempo fa, i pasticceri più bravi usavano un metodo chiamato AIGB.

Come funzionava: Guardavano un vecchio album di foto (i dati storici) di come altri pasticceri avevano venduto le torte in passato. Imparavano a imitare perfettamente quelle foto.
Il problema: Se il mercato cambia (es. arriva un nuovo concorrente o cambia il gusto della gente), il pasticcere che copia solo le vecchie foto si blocca. Non osa provare nuove ricette perché non le ha mai viste nell'album. Se prova a inventare qualcosa di nuovo basandosi solo su quelle vecchie foto, rischia di fare una torta orribile e perdere soldi.

2. Il Nuovo Metodo: AIGB-Pearl (Il Pasticcere con il "Gusto Esperto")

Gli autori di questo paper hanno creato un metodo intelligente che combina l'imitazione con l'esperienza. Lo chiamano AIGB-Pearl.

Immagina che il pasticcere abbia due aiutanti magici:

A. Il "Gusto Esperto" (L'Evaluatore)

Prima di tutto, il pasticcere assume un Assaggiatore Esperto (l'Evaluatore).

Questo assaggiatore ha assaggiato migliaia di torte dal vecchio album.
Il suo lavoro non è solo guardare la ricetta, ma prevedere quanto sarà buona una torta prima ancora di cuocerla.
Se il pasticcere prova a inventare una nuova torta, l'Assaggiatore le dice: "Ehi, questa sembra promettente!" oppure "Attenzione, questa sembra rischiosa, potresti bruciare i soldi!".
Questo aiuta il pasticcere a esplorare nuove idee senza fare danni catastrofici.

B. La "Bussola di Sicurezza" (Vincoli KL e Lipschitz)

Qui sta il genio della carta. L'Assaggiatore è intelligente, ma non è perfetto. Se il pasticcere prova a fare una torta troppo strana (lontana da quelle nell'album), l'Assaggiatore potrebbe sbagliare il giudizio.

Per evitare questo, AIGB-Pearl mette due regole di sicurezza (i vincoli):

La Regola della "Vicinanza" (Vincolo KL): Il pasticcere può provare nuove ricette, ma devono essere simili a quelle che ha già visto funzionare bene. Non può improvvisare una torta fatta di sabbia e sale se non ha mai visto nulla di simile. Deve rimanere nel "quartiere sicuro" delle buone ricette.
La Regola della "Stabilità" (Vincolo Lipschitz): Se il pasticcere cambia leggermente gli ingredienti (es. un grammo di zucchero in più), il risultato non deve cambiare drasticamente (es. da "delizioso" a "avvelenato"). Questo garantisce che piccoli errori di calcolo non portino a disastri enormi.

L'Analogia della "Passeggiata nel Parco"

Immagina di dover camminare in un parco buio (il mercato) per trovare il tesoro (il massimo profitto).

Il vecchio metodo (AIGB): Cammina solo sui sentieri illuminati dove sono già passati altri. È sicuro, ma non troverà mai nuovi tesori nascosti nell'erba alta.
Il metodo RL classico: Cerca di correre veloce nel buio, ma spesso inciampa e cade (è instabile e rischioso).
AIGB-Pearl: Cammina sui sentieri illuminati, ma ha una torcia (l'Assaggiatore) che illumina l'erba alta vicino al sentiero.
- Se la torcia dice "Qui c'è un tesoro!", il pasticcero si sposta leggermente fuori dal sentiero.
- Ma ha anche una corda di sicurezza (i vincoli) che lo tiene legato al sentiero principale. Non può correre troppo lontano nel buio, ma può esplorare abbastanza da trovare nuovi tesori senza cadere nel burrone.

I Risultati nella Vita Reale

Gli autori hanno testato questo metodo su Taobao (il gigante cinese dell'e-commerce, simile ad Amazon).

Hanno scoperto che il nuovo metodo ha fatto guadagnare alle aziende più soldi (GMV) rispetto a tutti gli altri metodi esistenti.
Ha funzionato meglio anche con nuovi clienti che non avevano mai visto prima (generalizzazione).
Soprattutto, è stato più stabile: non ha fatto errori disastrosi che avrebbero potuto bruciare il budget delle aziende.

In Sintesi

AIGB-Pearl è come dare a un'auto a guida autonoma un'esperienza di guida (i dati storici) ma anche un co-pilota esperto che guarda la strada e dice: "Ok, possiamo accelerare un po' qui per prendere una scorciatoia, ma non girare troppo a destra o andiamo fuori strada".

È un modo intelligente per imparare dal passato senza esserne schiavi, permettendo di esplorare nuove possibilità in modo sicuro e profittevole.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Limiti dell'Auto-Bidding Generativo

L'auto-bidding è una tecnica cruciale per ottimizzare le offerte pubblicitarie in tempo reale, massimizzando le performance (es. GMV - Gross Merchandise Volume) entro vincoli di budget.

Contesto: Il problema è modellato come un processo decisionale sequenziale offline (Offline RL), dove l'agente deve imparare da un dataset statico senza interagire direttamente con l'ambiente reale per motivi di sicurezza.
Stato dell'arte: I metodi recenti basati su Generative Auto-Bidding (AIGB) trattano il problema come un task di generazione di traiettorie condizionate (usando modelli generativi come Diffusion o Transformer). Questi metodi superano i tradizionali metodi di Reinforcement Learning (RL) offline evitando l'instabilità derivante dal "bootstrapping" (stima del valore a cascata).
Il Collo di Bottiglia: I metodi AIGB esistenti soffrono di una limitazione fondamentale: si basano sull'imitazione delle traiettorie presenti nel dataset offline. Non hanno un meccanismo intrinseco per esplorare traiettorie migliori al di fuori del dataset (fuori distribuzione o OOD) basandosi sul feedback di reward. Di conseguenza, la generazione in regime di estrazione (quando si chiede un reward superiore a quello massimo osservato) diventa inaffidabile, portando a performance degradate o a comportamenti rischiosi.

2. Metodologia: AIGB-Pearl

Gli autori propongono AIGB-Pearl (Planning with EvaluAtor via RL), un nuovo framework che integra la pianificazione generativa con l'ottimizzazione della policy tramite un valutatore di reward appreso.

Componenti Chiave:

Trajectory Evaluator (Valutatore di Traiettoria):
- Un modello supervisionato addestrato sul dataset offline per stimare la qualità di una traiettoria $\hat{y}_\phi(\tau)$ (il reward normalizzato).
- Per garantire affidabilità, il valutatore è addestrato con una regolarizzazione Lipschitziana, vincolando la sua sensibilità alle variazioni dell'input. Questo impedisce che il valutatore produca stime errate (bias) quando incontra traiettorie OOD.
Ottimizzazione della Policy con Vincoli:
- Il generatore (Planner) non si limita a imitare i dati, ma cerca di massimizzare il punteggio stimato dal valutatore $\hat{y}_\phi(\tau)$ .
- Per evitare l'esplorazione pericolosa (OOD), viene formulato un problema di ottimizzazione vincolata:
  - Massimizzazione del Punteggio: $\max_\theta \mathbb{E}[\hat{y}_\phi(\tau)]$ .
  - Vincolo KL (Behavior Cloning): La distribuzione generata deve rimanere vicina a quella del dataset offline ( $D_{KL} \le \delta_K$ ).
  - Vincolo Lipschitz: La distribuzione generata deve essere Lipschitz-continua rispetto alla condizione di reward desiderata ( $y^*$ ). Questo garantisce che piccole variazioni nel reward target portino a piccole variazioni nella traiettoria generata, mantenendo l'agente in una "vicinanza certificata" delle traiettorie di alta qualità note.
Algoritmo Pratico con Accoppiamento Sincrono:
- Per implementare il vincolo Lipschitz durante l'addestramento, gli autori introducono una tecnica di accoppiamento sincrono (synchronous coupling).
- Invece di campionare rumore casuale indipendente per diverse condizioni, si usa la stessa sequenza di rumore gaussiano per generare traiettorie con condizioni diverse. Questo permette di calcolare un limite superiore più stretto della distanza di Wasserstein tra le distribuzioni, rendendo il vincolo computazionalmente fattibile e più efficace.

Fondamenti Teorici:

Il paper fornisce garanzie teoriche rigorose:

Teorema di Lipschitz: Dimostra che la qualità della traiettoria è Lipschitz-continua rispetto alla norma di Frobenius.
Bound del Bias: Viene derivato un limite superiore per il bias del valutatore quando usato per la pianificazione, dimostrando che con i vincoli KL e Lipschitz, l'errore di stima rimane controllato.
Bound di Sub-ottimalità: Viene provato che la soluzione ottenuta da AIGB-Pearl ha un gap di sub-ottimalità limitato rispetto alla policy ottima, garantendo che l'esplorazione sia sicura ed efficace.

3. Risultati Sperimentali

Gli esperimenti sono stati condotti sia su sistemi simulati che su dati reali di Taobao (Alibaba), coinvolgendo migliaia di advertiser.

Performance Generale: AIGB-Pearl supera costantemente tutti i baselines (inclusi metodi RL offline come CQL, IQL, e metodi generativi come DiffBid e Decision Transformer).
- Nei test simulati, mostra un miglioramento del GMV dal +2.09% al +4.62% rispetto al miglior baseline.
- Nei test reali (A/B test su 6k advertiser), ottiene un miglioramento del GMV del +3.00% e un ROI del +1.89%, mantenendo il costo entro il 2% di tolleranza.
Generalizzazione: Il metodo dimostra una capacità di generalizzazione superiore su advertiser non presenti nel dataset di addestramento (OOD), migliorando il GMV del +3.32% rispetto ai metodi AIGB esistenti.
Stabilità: A differenza dei metodi RL tradizionali che soffrono di instabilità durante l'addestramento, AIGB-Pearl mostra curve di apprendimento più lisce e consistenti.
Ablation Study: La rimozione dei vincoli KL o Lipschitz porta a un calo significativo delle performance e alla generazione di traiettorie "patologiche" (es. consumo eccessivo di budget, pacing errato), confermando la necessità dei vincoli teorici.
Accuratezza del Valutatore: Il valutatore addestrato raggiunge un'AUC (Area Under Curve) del 75.1% su dati OOD, dimostrando di saper distinguere efficacemente tra traiettorie buone e cattive anche al di fuori del dominio di addestramento.

4. Contributi Chiave

Nuovo Framework Ibrido: Introduzione di AIGB-Pearl, che combina la stabilità dei modelli generativi con l'ottimizzazione guidata dal reward, superando il limite dell'imitazione passiva.
Ottimizzazione Teoricamente Garantita: Proposta di un obiettivo di massimizzazione del punteggio vincolato da KL e Lipschitz, con una prova formale del bound di sub-ottimalità che assicura una generalizzazione sicura.
Algoritmo Pratico: Sviluppo di una tecnica di accoppiamento sincrono per soddisfare i vincoli Lipschitz in modo efficiente durante l'addestramento.
Validazione Industriale: Dimostrazione empirica su larga scala (Taobao) che l'approccio porta a guadagni reali significativi (milioni di RMB aggiuntivi di GMV giornaliero) senza compromettere la sicurezza del budget.

5. Significato e Impatto

Questo lavoro è significativo perché risolve il dilemma fondamentale dell'auto-bidding offline: come esplorare oltre i dati storici senza rischiare performance disastrose.

Sicurezza: I vincoli teorici trasformano l'esplorazione da un processo cieco e rischioso a uno "sicuro" e certificato.
Efficienza: Evita l'instabilità tipica del RL classico, rendendo il metodo adatto a sistemi industriali critici dove l'errore ha un costo monetario diretto.
Scalabilità: La capacità di generalizzare su nuovi advertiser e scenari (inclusi vincoli di TargetROAS) rende la soluzione robusta per piattaforme pubblicitarie complesse.

In sintesi, AIGB-Pearl rappresenta un passo avanti verso l'uso dell'IA generativa per la decisione sequenziale in ambienti ad alto rischio, fornendo un equilibrio ottimale tra esplorazione innovativa e sicurezza operativa.