Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

O artigo apresenta o AIGB-Pearl, um método inovador que integra planejamento generativo com otimização de políticas e um avaliador de trajetórias para superar as limitações de exploração dos métodos existentes de licitação automática, alcançando desempenho superior em sistemas publicitários reais e simulados.

Zhiyu Mou, Yiqin Lv, Miao Xu, Qi Wang, Yixiu Mao, Jinghao Chen, Qichen Ye, Chao Li, Rongquan Bai, Chuan Yu, Jian Xu, Bo Zheng

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um gerente de uma loja de roupas e tem um orçamento fixo para fazer propaganda em revistas e sites. O seu objetivo é gastar esse dinheiro da forma mais inteligente possível: comprar anúncios que tragam muitos clientes, sem estourar o orçamento.

O problema é que o mercado é caótico. O preço dos anúncios muda a cada segundo, e você não pode ficar lá 24 horas por dia ajustando manualmente quanto pagar por cada anúncio. É aqui que entra o Auto-bidding (lance automático): um robô que faz as licitações por você.

O Problema: O Robô "Copia e Cola"

Até hoje, os melhores robôs funcionavam como um aluno que só estuda para a prova olhando as respostas do livro. Eles analisam milhões de lances que foram feitos no passado (os dados offline) e tentam imitar o que funcionou bem.

Isso funciona bem, mas tem um limite:

  1. Eles não conseguem inventar nada novo. Se o cenário mudar um pouco, eles ficam perdidos.
  2. Eles têm medo de tentar coisas diferentes, porque se errarem fora do "livro de respostas", podem gastar todo o seu dinheiro à toa.

Os autores deste paper (da Alibaba e da Universidade Tsinghua) criaram um novo método chamado AIGB-Pearl. Eles querem transformar esse aluno que apenas copia em um estrategista que aprende a pensar.

A Solução: O "Juiz" e o "Atleta"

O AIGB-Pearl funciona como um treino de alta performance com dois personagens principais:

1. O Juiz (O Avaliador de Trajetórias)

Imagine que você tem um juiz experiente que assiste a milhares de jogos antigos. Ele não apenas vê quem ganhou, mas analisa como o time jogou.

  • No nosso caso, o "Juiz" é uma inteligência artificial treinada para olhar para uma sequência de lances (uma "trajetória") e dar uma nota: "Isso foi um lance brilhante?" ou "Isso foi um desperdício?".
  • O grande diferencial é que esse Juiz aprendeu a ser justo e cauteloso. Ele sabe que se o jogador fizer algo muito estranho (algo que nunca viu nos jogos antigos), ele não vai dar uma nota falsa e alta só porque o jogador parece confiante. Ele mantém a nota realista para evitar riscos.

2. O Atleta (O Planejador Generativo)

Agora, imagine um atleta que quer quebrar recordes.

  • Antigamente, o atleta só praticava os movimentos que já tinha visto nos vídeos antigos.
  • Com o AIGB-Pearl, o atleta tenta criar novos movimentos para tentar ganhar mais pontos.
  • A mágica: A cada vez que o atleta tenta um novo movimento, ele mostra para o Juiz. O Juiz dá uma nota. Se a nota for boa, o atleta repete e melhora. Se for ruim, ele descarta.

O Segredo: A "Zona de Segurança" (Restrições KL e Lipschitz)

Aqui está a parte mais inteligente do papel. Como o Juiz só viu jogos antigos, ele pode se confundir se o atleta fizer algo muito estranho. Para evitar que o atleta faça loucuras e quebre o orçamento, os autores criaram duas regras de segurança:

  1. A Regra da "Zona de Confiança" (Restrição KL): O atleta só pode tentar movimentos que sejam "parecidos" com os movimentos que ele já viu nos vídeos antigos. Ele não pode tentar voar se nunca viu ninguém voar. Isso garante que ele não se perca totalmente.
  2. A Regra da "Suavidade" (Restrição Lipschitz): Imagine que o Juiz é sensível. Se o atleta mudar o movimento um pouquinho, a nota não pode mudar drasticamente (de 10 para 0). A regra diz: "Se você mudar um pouco, sua nota pode mudar um pouco, mas não pode haver surpresas". Isso impede que o robô seja enganado por situações estranhas e arriscadas.

A Analogia do Mapa:
Pense no orçamento como um mapa de um tesouro.

  • O método antigo (AIGB) só andava pelas trilhas que já estavam desenhadas no mapa.
  • O AIGB-Pearl permite que você saia um pouco da trilha para procurar um atalho (exploração), mas você é guiado por um GPS (o Juiz) que só te deixa ir para áreas onde o terreno é seguro e conhecido. Se você tentar ir para um abismo (fora dos dados), o GPS te segura.

Os Resultados: O Robô Aprendeu a Ganhar Mais

Os autores testaram isso em simulações e, mais importante, em lojas reais da Taobao (o "Amazon" da China).

  • Resultado: O novo robô (AIGB-Pearl) conseguiu gerar mais vendas (GMV) do que os melhores robôs existentes.
  • Segurança: Ele não quebrou o orçamento e não teve comportamentos estranhos (como gastar tudo no primeiro minuto).
  • Estabilidade: Diferente de outros métodos que "tremeram" e falharam durante o treino, esse método foi estável e confiável.

Resumo em uma Frase

O AIGB-Pearl é como dar a um robô de vendas um treinador de elite (o Juiz) que o incentiva a tentar estratégias novas e melhores, mas que o segura firmemente pela mão para garantir que ele nunca dê um passo em falso e perca o dinheiro da empresa. É a união perfeita entre criatividade (tentar coisas novas) e cautela (não arriscar o impossível).

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →