LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma grande campanha de publicidade na internet. O seu objetivo é simples: gastar o seu orçamento de forma inteligente para conseguir o máximo de cliques ou vendas possível, sem gastar mais do que o permitido por cada venda.

O problema é que o mercado de anúncios online é como uma leilão de alta velocidade que acontece milhões de vezes por segundo. É impossível para um humano ajustar os preços (lances) manualmente a cada segundo. Por isso, usamos "robôs" de licitação automática (auto-bidding).

Até agora, esses robôs funcionavam como alunos que apenas memorizam: eles olhavam para dados passados e tentavam repetir o que funcionava. O problema é que, quando a situação mudava um pouco (algo que nunca aconteceu nos dados antigos), esses robôs ficavam confusos e tomavam decisões estranhas, como gastar todo o dinheiro no primeiro minuto ou não gastar nada.

Este artigo apresenta uma nova solução chamada LBM (Modelo de Licitação Automática em Grande Escala). Pense nele como um robô com um "cérebro" e "mãos" separados, trabalhando em equipe.

A Analogia: O Estrategista e o Executor

O LBM divide o trabalho em duas partes, como se fosse uma empresa com um Diretor de Estratégia e um Operador de Máquina:

1. O "LBM-Think" (O Estrategista)

O que faz: Ele é o "cérebro" que pensa. Ele lê o histórico de desempenho (como se estivesse lendo um diário de bordo) e usa sua inteligência para criar um plano de ação.
A mágica: Diferente dos robôs antigos que apenas calculavam números, este estrategista usa um Modelo de Linguagem Grande (LLM) — a mesma tecnologia por trás de chatbots inteligentes. Ele consegue "raciocinar" como um humano experiente.
- Exemplo: Se o robô vê que gastou pouco dinheiro e o custo por venda está alto, o Estrategista pensa: "Ei, estamos gastando muito devagar e o preço está caro. Vamos aumentar um pouco o lance para pegar mais oportunidades, mas com cuidado."
O resultado: Ele escreve um "bilhete de raciocínio" (chamado de Chain-of-Thought), explicando por que deve tomar uma decisão, antes mesmo de agir.

2. O "LBM-Act" (O Executor)

O que faz: Ele é as "mãos" rápidas. Ele recebe o bilhete de raciocínio do Estrategista e os números exatos do momento atual (orçamento restante, tempo, etc.).
A mágica: Ele é um modelo menor e mais rápido, especializado em traduzir aquele raciocínio em um número exato de lance.
O problema que resolve: Modelos de linguagem puros (como o ChatGPT) são ótimos em conversar, mas péssimos em matemática precisa. Se você pedir para eles definirem um lance de "R $1,23456", eles podem alucinar e dizer "R$ 1,23457", o que custa dinheiro. O "Executor" foi treinado especificamente para pegar a ideia do "Estrategista" e transformá-la em um número matemático perfeito, sem erros.

Como eles aprendem? (O Treinamento)

O artigo descreve duas etapas de treinamento para garantir que o robô não cometa erros:

Aprendizado Guiado por Linguagem: Primeiro, ensinamos o "Executor" a entender as instruções do "Estrategista". É como se o Diretor passasse um memorando escrito e o Operador aprendesse a executá-lo perfeitamente.
Ajuste Fino Offline (GQPO): Aqui está a parte mais inteligente. Em vez de testar o robô na vida real (o que seria arriscado e caro), eles usam uma técnica chamada GQPO.
- A analogia: Imagine que o "Estrategista" escreve 10 planos diferentes. O sistema simula internamente qual desses planos teria dado mais dinheiro no passado. Ele escolhe o melhor plano e diz ao Estrategista: "Esse foi o melhor raciocínio, aprenda com ele". Isso melhora a lógica do robô sem gastar um centavo real.

Por que isso é um avanço?

Não é uma "caixa preta": Os robôs antigos eram caixas pretas; você não sabia por que eles tomaram uma decisão. Com o LBM, o "Estrategista" explica o raciocínio, o que gera confiança.
Adaptação: Se o mercado mudar de repente, o "Estrategista" consegue usar seu conhecimento geral (como um humano experiente) para se adaptar, enquanto os robôs antigos ficariam travados.
Precisão: Ao separar o pensamento (linguagem) da ação (números), o sistema evita os erros de cálculo que modelos de linguagem puros costumam cometer.

Resumo Final

O LBM é como contratar um gerente de marketing sênior (que pensa, planeja e explica o "porquê") e um operador de máquina de alta precisão (que executa o comando exato). Juntos, eles conseguem gerenciar leilões de anúncios de forma mais inteligente, segura e eficiente do que qualquer método anterior, garantindo que o dinheiro do anunciante seja gasto da melhor maneira possível.

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

A Analogia: O Estrategista e o Executor

1. O "LBM-Think" (O Estrategista)

2. O "LBM-Act" (O Executor)

Como eles aprendem? (O Treinamento)

Por que isso é um avanço?

Resumo Final

Resumo Técnico: LBM – Modelo Hierárquico de Lances Automáticos via Raciocínio e Ação

1. Problema e Contexto

2. Metodologia Proposta: LBM

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

A Analogia: O Estrategista e o Executor

1. O "LBM-Think" (O Estrategista)

2. O "LBM-Act" (O Executor)

Como eles aprendem? (O Treinamento)

Por que isso é um avanço?

Resumo Final

Resumo Técnico: LBM – Modelo Hierárquico de Lances Automáticos via Raciocínio e Ação

1. Problema e Contexto

2. Metodologia Proposta: LBM

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA