Knowledge-informed Bidding with Dual-process Control for Online Advertising

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma grande loja de departamentos e tem um orçamento limitado para fazer anúncios em jornais, rádios e outdoors. O seu objetivo é gastar esse dinheiro de forma inteligente para vender o máximo de produtos possível, sem estourar o orçamento e sem pagar caro demais por cada cliente que chega.

O problema é que o mercado de anúncios online é caótico, muda a cada segundo e é impossível para um humano acompanhar tudo manualmente. Por isso, as empresas usam "robôs" (algoritmos de Inteligência Artificial) para fazer as licitações (bids) por elas.

Aqui está a explicação da pesquisa KBD (Bidding Informado por Conhecimento com Controle de Duplo Processo), traduzida para uma linguagem simples e com analogias do dia a dia:

O Problema: Robôs que "Aprendem de Cor" vs. Especialistas Humanos

Antes, as empresas usavam robôs que apenas olhavam para o passado (dados históricos) e tentavam repetir o que funcionava.

O defeito: Imagine um aluno que decora a resposta de uma prova antiga. Se a prova de hoje tiver uma pergunta ligeiramente diferente (como uma promoção de Natal ou o lançamento de um produto novo), o aluno decora a resposta errada.
Na publicidade, quando algo inesperado acontece (uma crise, uma tendência viral), esses robôs "cegos" falham porque não entendem a lógica por trás dos números, apenas os números em si. Eles tomam decisões de curto prazo, ignorando o longo prazo.

A Solução: O Método KBD (O "Piloto Automático" com um "Co-piloto Humano")

Os autores criaram um novo sistema chamado KBD que mistura a velocidade da máquina com a sabedoria de um especialista humano. Eles dividiram o trabalho em duas etapas, como se fosse uma viagem de carro:

1. A Etapa Macro (O Plano Diário) – "O Mapa"

Antes de sair de casa, você precisa de um plano. Qual é o seu destino? Quanto combustível você tem?

Como funciona: O sistema usa uma técnica chamada IEFormer. Em vez de apenas "adivinhar" com base em dados brutos, ele incorpora o conhecimento de especialistas humanos.
A Analogia: Imagine que o robô não é apenas um computador, mas um engenheiro sênior que sabe que "se eu gastar muito agora, vou ficar sem dinheiro no final do mês". O sistema aprende essa regra lógica (chamada de "regra de retorno decrescente") e a usa para criar uma linha de base segura para o dia todo. Ele garante que o robô não seja tolo e gaste tudo no primeiro horário.

2. A Etapa Micro (O Ajuste Horário) – "O Volante"

Durante a viagem, o trânsito muda. De repente, aparece um engarrafamento ou uma estrada livre. Você precisa ajustar a velocidade hora a hora.

O Problema: O robô principal (chamado Decision Transformer) é muito inteligente e pensa no futuro (o longo prazo), mas ele é lento e pode se confuso se o trânsito mudar de forma radical (dados fora do comum).
A Solução (Controle de Duplo Processo): Aqui entra a genialidade do papel. Eles criaram um sistema de dois cérebros trabalhando juntos:
- Sistema 1 (O Piloto Automático Rápido - PID): É como um piloto automático simples e rápido. Ele reage imediatamente a erros. Se o carro está indo muito rápido e gastando muita gasolina, ele freia. É baseado em regras simples de especialistas. Ele é robusto e não falha em situações de pânico.
- Sistema 2 (O Piloto Experiente - DT): É o cérebro complexo que planeja a rota inteira, pensando em como chegar ao destino gastando o mínimo possível. Ele é ótimo, mas pode hesitar ou errar se a situação for muito estranha.

Como eles trabalham juntos?
O sistema funciona como um duplo controle de direção:

O Sistema 2 (o cérebro complexo) tenta planejar a melhor jogada.
O Sistema 1 (o piloto rápido) vigia. Se o Sistema 2 estiver hesitando ou se a situação for muito arriscada (como uma promoção de vendas inesperada), o Sistema 1 assume o controle ou corrige o caminho.
Eles se misturam: Se o Sistema 2 tem certeza, ele manda. Se ele está inseguro (alta incerteza), o Sistema 1, que é mais conservador e seguro, ajuda a equilibrar.

Por que isso é incrível? (Os Resultados)

O papel mostra que esse método é muito melhor do que os anteriores por três motivos principais:

Não é cego: Ao ensinar o robô com regras humanas (como "não gaste tudo de uma vez"), ele não comete erros bobos quando os dados são escassos.
Pensa no futuro: Ao usar o "Sistema 2", ele não foca apenas no clique de agora, mas em como esse clique afeta o lucro da semana inteira.
É à prova de falhas: Quando o mundo muda de repente (uma nova lei, uma crise), o "Sistema 1" (regras simples) impede que o robô entre em pânico e gaste todo o dinheiro errado.

Resumo em uma frase

O KBD é como ter um gerente de marketing experiente (que define a estratégia diária e as regras de segurança) trabalhando em dupla com um supercomputador (que ajusta os detalhes hora a hora), garantindo que você nunca gaste seu dinheiro de forma tola, mesmo quando o mercado fica louco.

Isso resulta em mais vendas, menos desperdício de dinheiro e anúncios que funcionam mesmo em dias de crise ou mudanças bruscas.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

O artigo aborda os desafios atuais na otimização de lances (bidding) em publicidade online, onde o aprendizado de máquina (ML) "caixa-preta" domina, mas apresenta limitações significativas:

Falha na Generalização: Modelos baseados apenas em dados históricos performam mal em cenários com dados escassos ou distribuições fora do padrão (out-of-distribution), como promoções de vendas ou lançamentos de novos produtos.
Visão de Curto Prazo: Abordagens existentes frequentemente otimizam de forma míope (passo a passo), ignorando interdependências temporais e recompensas de longo prazo.
Falta de Conhecimento Humano: Modelos puramente dados não conseguem replicar a adaptabilidade, a experiência e a coerência global dos especialistas humanos.
Inconsistência em Cenários Dinâmicos: As estratégias atuais lutam para se adaptar a mudanças abruptas na distribuição de dados, levando a decisões de lance subótimas e perdas de receita para os anunciantes.

2. Metodologia: KBD (Knowledge-informed Bidding with Dual-process Control)

Os autores propõem o KBD, um método de otimização de lances em duas etapas que integra conhecimento humano e controle de duplo processo (inspirado na teoria cognitiva de Sistema 1 e Sistema 2).

A. Etapa Macro (Diária): IEFormer

Nesta fase, o objetivo é estabelecer uma linha de base robusta para o tCPA (Custo por Ação Alvo) diária. Utiliza-se o paradigma de Aprendizado de Máquina Informado (IML) para incorporar expertise humana em três níveis:

Nível de Hipótese (Arquitetura Híbrida):
- Combina um módulo conexionista (Encoder Transformer) para extrair representações densas de dados históricos.
- Combina um módulo simbólico (Interpretador Preço-Volume) baseado em raciocínio linear por partes monótono.
- O interpretador mapeia o custo para o tCPA usando pesos interpretáveis ( $W$ ) sobre segmentos de custo.
- GLA (Generalized Lloyd Algorithm): Utilizado para particionamento adaptativo dos segmentos de custo, maximizando a entropia da informação para evitar alocação enviesada em regiões esparsas.
Nível de Algoritmo (Regularização):
- Impõe restrições de monotonicidade (tCPA não decrescente com o custo) e suavidade.
- Introduz um novo viés indutivo: Retornos Marginais Decrescentes (a taxa de aumento do tCPA diminui conforme o custo cresce), implementado via uma função de perda específica ( $L_{margin}$ ).
Nível de Dados:
- Transferência de conhecimento de outras estratégias de lance (tROI, tCPC) convertendo-as para valores equivalentes de tCPA, enriquecendo o conjunto de dados de treinamento.

B. Etapa Micro (Horária): Controle de Duplo Processo (PID + DT)

Nesta fase, o tCPA é ajustado hora a hora para maximizar o GMV (Volume Bruto de Mercadorias) a longo prazo.

Sistema 2 (Deliberativo): Utiliza um Decision Transformer (DT) treinado com Aprendizado por Reforço Offline. Ele modela o problema como um Processo de Decisão de Markov (MDP) de 24 passos (horas) para otimizar recompensas futuras e sequenciais, superando a miopia de otimizações passo a passo.
Sistema 1 (Reativo): Utiliza um controlador PID (Proporcional-Integral-Derivativo) baseado em regras e heurísticas de especialistas. Ele ajusta os lances com base no desvio da taxa de gasto (orçamento vs. gasto real), garantindo estabilidade e aderência a restrições.
Fusão e Controle:
- Durante o Treinamento: O DT é regularizado para seguir o comportamento do PID (usando um prior de MDL - Minimum Description Length), aprendendo a imitar a conservadorismo do Sistema 1.
- Durante a Inferência: Uma fusão ponderada pela incerteza é aplicada. Se o DT tem alta incerteza (erros de previsão recentes), o sistema confia mais no PID robusto. Se o DT está confiante, ele domina para maximizar a recompensa.

3. Principais Contribuições

Framework KBD: Um método de duas etapas que acalma a calibração diária orientada por especialistas (IEFormer) com controle sequencial horário (DT+PID) para otimizar recompensas de longo prazo.
Integração de Conhecimento e Duplo Processo: Melhora a robustez e o desempenho ao fundir o PID (Sistema 1) com o DT (Sistema 2), permitindo que o sistema lide eficazmente com mudanças de distribuição de dados (out-of-distribution).
Validação Empírica: Demonstração da eficácia e aplicabilidade ampla do KBD em dois conjuntos de dados distintos, superando o estado da arte em ambientes dinâmicos.

4. Resultados Experimentais

Os experimentos foram realizados em dois conjuntos de dados: o público iPinYou (foco em maximização de cliques) e um conjunto privado de E-commerce (ECA) da Alibaba (foco em GMV com tCPA/tROI).

Desempenho Geral (RQ1): O KBD superou consistentemente todos os métodos anteriores (como PUROS, GCB-safe, ARTEO) tanto na taxa de retorno normalizado ( $R/R^*$ ) quanto na satisfação de restrições (orçamento e tCPA).
Impacto do IML (RQ2): Estudos de ablação mostraram que remover qualquer nível de integração de conhecimento (módulo IE, GLA, perda de margem ou dados de outras estratégias) resultou em degradação imediata do desempenho. O módulo IE foi o mais crítico.
Robustez (RQ3): O IEFormer demonstrou ser robusto à variação no número de segmentos ( $N$ ), mantendo desempenho superior mesmo com diferentes configurações.
Controle de Duplo Processo (RQ4):
- O DT sozinho melhorou a recompensa, mas violou mais restrições (lances agressivos).
- O PID sozinho garantiu restrições, mas foi míope.
- A fusão (KBD) equilibrou os dois, melhorando ambas as métricas em cerca de 1% em relação aos componentes isolados.
- Em testes online reais, o KBD com controle de duplo processo aumentou significativamente a taxa de exaustão de custos (+8.44% a +14.55%) e o GMV em comparação com o grupo de controle.

5. Significado e Conclusão

O trabalho demonstra que a simples aplicação de modelos de caixa-preta não é suficiente para a complexidade da publicidade online moderna. A introdução de viéses indutivos baseados em conhecimento humano (via IML) e a arquitetura de duplo processo (combinando heurísticas rápidas e robustas com planejamento deliberativo) são essenciais para:

Garantir estabilidade em cenários de dados esparsos ou distribuições alteradas.
Alinhar a otimização de curto prazo com objetivos de longo prazo.
Criar sistemas de automação de lances que são não apenas eficientes, mas também interpretáveis e confiáveis para os anunciantes.

O artigo sugere que o futuro da otimização de lances reside na simbiose entre a capacidade de generalização de modelos profundos e a robustez das regras e heurísticas humanas.