Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um gerente de uma loja de roupas e tem um orçamento fixo para fazer propaganda em revistas e sites. O seu objetivo é gastar esse dinheiro da forma mais inteligente possível: comprar anúncios que tragam muitos clientes, sem estourar o orçamento.

O problema é que o mercado é caótico. O preço dos anúncios muda a cada segundo, e você não pode ficar lá 24 horas por dia ajustando manualmente quanto pagar por cada anúncio. É aqui que entra o Auto-bidding (lance automático): um robô que faz as licitações por você.

O Problema: O Robô "Copia e Cola"

Até hoje, os melhores robôs funcionavam como um aluno que só estuda para a prova olhando as respostas do livro. Eles analisam milhões de lances que foram feitos no passado (os dados offline) e tentam imitar o que funcionou bem.

Isso funciona bem, mas tem um limite:

Eles não conseguem inventar nada novo. Se o cenário mudar um pouco, eles ficam perdidos.
Eles têm medo de tentar coisas diferentes, porque se errarem fora do "livro de respostas", podem gastar todo o seu dinheiro à toa.

Os autores deste paper (da Alibaba e da Universidade Tsinghua) criaram um novo método chamado AIGB-Pearl. Eles querem transformar esse aluno que apenas copia em um estrategista que aprende a pensar.

A Solução: O "Juiz" e o "Atleta"

O AIGB-Pearl funciona como um treino de alta performance com dois personagens principais:

1. O Juiz (O Avaliador de Trajetórias)

Imagine que você tem um juiz experiente que assiste a milhares de jogos antigos. Ele não apenas vê quem ganhou, mas analisa como o time jogou.

No nosso caso, o "Juiz" é uma inteligência artificial treinada para olhar para uma sequência de lances (uma "trajetória") e dar uma nota: "Isso foi um lance brilhante?" ou "Isso foi um desperdício?".
O grande diferencial é que esse Juiz aprendeu a ser justo e cauteloso. Ele sabe que se o jogador fizer algo muito estranho (algo que nunca viu nos jogos antigos), ele não vai dar uma nota falsa e alta só porque o jogador parece confiante. Ele mantém a nota realista para evitar riscos.

2. O Atleta (O Planejador Generativo)

Agora, imagine um atleta que quer quebrar recordes.

Antigamente, o atleta só praticava os movimentos que já tinha visto nos vídeos antigos.
Com o AIGB-Pearl, o atleta tenta criar novos movimentos para tentar ganhar mais pontos.
A mágica: A cada vez que o atleta tenta um novo movimento, ele mostra para o Juiz. O Juiz dá uma nota. Se a nota for boa, o atleta repete e melhora. Se for ruim, ele descarta.

O Segredo: A "Zona de Segurança" (Restrições KL e Lipschitz)

Aqui está a parte mais inteligente do papel. Como o Juiz só viu jogos antigos, ele pode se confundir se o atleta fizer algo muito estranho. Para evitar que o atleta faça loucuras e quebre o orçamento, os autores criaram duas regras de segurança:

A Regra da "Zona de Confiança" (Restrição KL): O atleta só pode tentar movimentos que sejam "parecidos" com os movimentos que ele já viu nos vídeos antigos. Ele não pode tentar voar se nunca viu ninguém voar. Isso garante que ele não se perca totalmente.
A Regra da "Suavidade" (Restrição Lipschitz): Imagine que o Juiz é sensível. Se o atleta mudar o movimento um pouquinho, a nota não pode mudar drasticamente (de 10 para 0). A regra diz: "Se você mudar um pouco, sua nota pode mudar um pouco, mas não pode haver surpresas". Isso impede que o robô seja enganado por situações estranhas e arriscadas.

A Analogia do Mapa:
Pense no orçamento como um mapa de um tesouro.

O método antigo (AIGB) só andava pelas trilhas que já estavam desenhadas no mapa.
O AIGB-Pearl permite que você saia um pouco da trilha para procurar um atalho (exploração), mas você é guiado por um GPS (o Juiz) que só te deixa ir para áreas onde o terreno é seguro e conhecido. Se você tentar ir para um abismo (fora dos dados), o GPS te segura.

Os Resultados: O Robô Aprendeu a Ganhar Mais

Os autores testaram isso em simulações e, mais importante, em lojas reais da Taobao (o "Amazon" da China).

Resultado: O novo robô (AIGB-Pearl) conseguiu gerar mais vendas (GMV) do que os melhores robôs existentes.
Segurança: Ele não quebrou o orçamento e não teve comportamentos estranhos (como gastar tudo no primeiro minuto).
Estabilidade: Diferente de outros métodos que "tremeram" e falharam durante o treino, esse método foi estável e confiável.

Resumo em uma Frase

O AIGB-Pearl é como dar a um robô de vendas um treinador de elite (o Juiz) que o incentiva a tentar estratégias novas e melhores, mas que o segura firmemente pela mão para garantir que ele nunca dê um passo em falso e perca o dinheiro da empresa. É a união perfeita entre criatividade (tentar coisas novas) e cautela (não arriscar o impossível).

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

O Auto-Bidding (licitação automática) é uma ferramenta crucial para anunciantes otimizarem o desempenho de campanhas publicitárias em ambientes dinâmicos e competitivos. O objetivo é maximizar o valor total das impressões ganhas (GMV - Gross Merchandise Volume) dentro de um orçamento fixo.

Desafio Atual: O problema é modelado como um processo de decisão sequencial offline (devido a preocupações de segurança em sistemas reais, não se pode explorar online livremente).
Limitações do RL Offline Tradicional: Métodos baseados em Aprendizado por Reforço (RL) offline sofrem com instabilidade de treinamento devido ao uso de bootstrapping (estimativas de valor recursivas) e problemas de distribuição fora do conjunto de dados (OOD - Out-of-Distribution).
Limitações do Auto-Bidding Generativo (AIGB): Métodos recentes, como o AIGB, tratam o problema como uma tarefa de geração de trajetórias usando modelos generativos (ex: Diffusion Models, Transformers). Embora mais estáveis que o RL, eles apenas imitam trajetórias do conjunto de dados offline. Eles não possuem um mecanismo explícito para explorar trajetórias de qualidade superior além do que está nos dados históricos, tornando a geração em regimes de extrapolação (além dos dados observados) não confiável e arriscada.

Questão Central: É possível integrar a otimização de política (busca por melhores recompensas) em modelos generativos de auto-bidding de forma segura e teoricamente fundamentada, permitindo a exploração além do conjunto de dados offline?

2. Metodologia: AIGB-Pearl

Os autores propõem o AIGB-Pearl (Planning with EvaluAtor via RL), um método que integra um avaliador de trajetória e um planejador generativo com restrições teóricas rigorosas.

Componentes Principais:

Avaliador de Trajetória (Evaluator):
- Um modelo supervisionado treinado no conjunto de dados offline para prever a qualidade de uma trajetória ( $\hat{y}_\phi(\tau)$ ), que é a recompensa cumulativa normalizada.
- Para garantir confiabilidade, o avaliador é regularizado para ser Lipschitz-contínuo, limitando a sensibilidade da previsão a pequenas perturbações na entrada.
- Técnicas de aprimoramento incluem embeddings de LLM (para características textuais do anunciante) e perda pair-wise (para melhor ordenação relativa).
Planejador Generativo (Planner):
- Um modelo generativo (Causal Transformer) que gera trajetórias condicionadas a uma qualidade desejada $y^*$ (onde $y^* > y_{max}$ do conjunto de dados).
- O objetivo é maximizar a pontuação dada pelo avaliador: $\max_\theta E[\hat{y}_\phi(\tau)]$ .
Restrições de Segurança (KL-Lipschitz):
- Para evitar que o planejador explore regiões perigosas (OOD) onde o avaliador pode falhar, o método impõe duas restrições teóricas durante o treinamento:
  - Restrição KL: Mantém a distribuição gerada próxima à distribuição de comportamento no conjunto de dados offline (Clonagem de Comportamento Condicional).
  - Restrição Lipschitz: Garante que a sensibilidade da distribuição de trajetórias geradas em relação à condição de entrada ( $y$ ) seja limitada.
- Teorema de Limite de Sub-otimalidade: Os autores provam que, sob essas restrições, a diferença entre a pontuação otimizada e a verdadeira performance é limitada por um limite superior certifiable, garantindo uma generalização segura.
Algoritmo Prático (Acoplamento Síncrono):
- Para calcular a distância de Wasserstein necessária para a restrição Lipschitz de forma eficiente, o método utiliza Acoplamento Síncrono. Isso gera duas trajetórias (condicionadas a $y_1$ e $y_2$ ) usando a mesma sequência de ruído gaussiano, reduzindo a variância e fornecendo um limite superior mais apertado para a distância.

3. Contribuições Chave

Novo Método (AIGB-Pearl): Uma abordagem que permite a melhoria contínua da qualidade de geração através de exploração guiada por recompensa, superando a limitação de imitação pura do AIGB.
Fundamentação Teórica: Proposição de um objetivo de maximização de pontuação com restrição KL-Lipschitz, acompanhado de um limite de sub-otimalidade provado, garantindo que a exploração ocorra apenas em regiões onde o avaliador é confiável.
Algoritmo Eficiente: Desenvolvimento de um algoritmo prático que utiliza acoplamento síncrono para satisfazer as condições de Lipschitz do modelo generativo sem custo computacional proibitivo.
Validação Empírica: Demonstração de que o método é mais estável que o RL offline tradicional e supera os métodos generativos atuais (SOTA) tanto em simulações quanto em testes reais.

4. Resultados Experimentais

Ambiente Simulado:

Testado com 30 anunciantes e 4 níveis de orçamento.
O AIGB-Pearl superou consistentemente todos os baselines (incluindo USCB, BCQ, CQL, IQL, DiffBid e DT).
Melhoria: Ganho de 4,62% no GMV em relação ao melhor baseline (DiffBid) no cenário de menor orçamento.

Testes do Mundo Real (Alibaba/Taobao):

Realizados em testes A/B com 6.000 anunciantes ao longo de 19 dias.
Desempenho: O AIGB-Pearl alcançou um aumento de 3,00% no GMV em comparação ao DiffBid (o método SOTA anterior).
Generalização: Em testes com anunciantes não presentes no conjunto de dados offline, o método manteve ganhos de ~3% no GMV, demonstrando robustez.
TargetROAS: Em um problema mais complexo com restrição de ROI, o método melhorou o GMV em 5,1%.

Análise de Estabilidade e Segurança:

Estabilidade: Curvas de aprendizado mostram que o AIGB-Pearl é muito mais estável e consistente que métodos de RL offline com bootstrapping, que exibem alta variância.
Avaliador: O avaliador atingiu alta precisão (AUC de ~75-85% em dados OOD), validando a capacidade de prever a qualidade de trajetórias não vistas.
Ablação: A remoção das restrições KL ou Lipschitz resultou em trajetórias "patológicas" (ex: consumo excessivo de orçamento, ritmo de gastos desordenado), confirmando a necessidade das restrições para segurança.

5. Significado e Impacto

O trabalho representa um avanço significativo na interseção entre Modelos Generativos e Aprendizado por Reforço Offline aplicado a sistemas de alta escala como o de publicidade digital.

Segurança na Exploração: Resolve o dilema fundamental de como explorar além dos dados históricos em ambientes de alto risco (onde erros custam dinheiro real) sem depender de estimativas de valor instáveis do RL tradicional.
Teoria Aplicada: A introdução de limites teóricos (Lipschitz e KL) para garantir que a "criatividade" do modelo generativo não leve a falhas catastróficas é uma contribuição teórica robusta.
Aplicabilidade Industrial: A implementação bem-sucedida em um dos maiores ecossistemas de e-commerce do mundo (Taobao) valida a viabilidade de métodos complexos de IA generativa em produção, oferecendo ganhos financeiros diretos e mensuráveis.

Em resumo, o AIGB-Pearl estabelece um novo padrão para sistemas de auto-bidding, combinando a estabilidade da modelagem generativa com a capacidade de otimização de políticas, tudo dentro de um quadro de segurança teoricamente garantido.