AdaBoN: Adaptive Best-of-N Alignment

O artigo propõe o AdaBoN, uma estratégia adaptativa de alinhamento "Best-of-N" que otimiza o uso de recursos computacionais em tempo de inferência ao alocar dinamicamente o orçamento de amostragem com base na dificuldade de cada prompt, superando abordagens uniformes em desempenho e eficiência.

Vinod Raman, Hilal Asi, Satyen Kale

Publicado 2026-03-16
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um editor de livros muito exigente. Você tem uma lista de 100 histórias curtas (os "prompts") e quer escolher a melhor versão de cada uma. Para isso, você contrata um escritor (a Inteligência Artificial) e pede que ele escreva 10 versões diferentes de cada história. Depois, você lê todas as 10 versões, escolhe a melhor e descarta as outras 9.

Esse processo é chamado de Best-of-N (o "Melhor dos N"). Funciona muito bem para garantir qualidade, mas é caríssimo em termos de tempo e energia. Se você tiver 100 histórias e pedir 10 versões de cada, o escritor precisa trabalhar 1.000 vezes. E se algumas histórias forem fáceis (o escritor acerta na primeira tentativa) e outras forem difíceis (ele precisa de 50 tentativas para acertar), pedir 10 tentativas para todas é um desperdício. Para as fáceis, você gastou esforço à toa; para as difíceis, talvez 10 não tenham sido suficientes.

O artigo que você enviou apresenta uma solução inteligente chamada AdaBoN (Adaptive Best-of-N). Pense no AdaBoN como um gerente de projeto esperto que não trata todos os problemas da mesma forma.

Aqui está como ele funciona, usando uma analogia simples:

O Problema: O "Corte de Pizza" Igualitário

No método antigo, se você tivesse uma pizza (seu orçamento de tempo/computação) para dividir entre 5 amigos (5 prompts), você cortava 5 fatias iguais para cada um.

  • O problema: Um amigo tem fome de um lanche pequeno (prompt fácil), outro tem um apetite de gigante (prompt difícil).
  • Resultado: O amigo com fome pequena sobra comida (desperdício), e o amigo com fome gigante continua com fome (qualidade ruim).

A Solução: O Gerente "AdaBoN"

O AdaBoN muda a regra. Em vez de cortar a pizza inteira de uma vez, ele faz um teste rápido antes de decidir quem ganha o quê.

1. A Fase de Exploração (O "Teste de Sabor")

O gerente pede para o escritor fazer apenas 3 ou 4 rascunhos rápidos de cada história (isso é o "orçamento de exploração").

  • Ele olha esses rascunhos e diz: "Uau, essa história aqui ficou ótima logo de cara! Essa outra parece meio confusa..."
  • Ele está estimando o "nível de dificuldade" de cada prompt.

2. A Fase de Alocação (O "Repartimento Inteligente")

Agora que ele sabe quem precisa de mais ajuda, ele pega o resto da pizza (o orçamento restante) e distribui de forma inteligente:

  • História Fácil: "Você já acertou! Não precisa de mais nada. Aqui está o seu prêmio, pode parar." (Gasta-se pouco).
  • História Difícil: "Essa está complicada. Vamos dar mais 20 tentativas para você tentar acertar." (Gasta-se muito).

Por que isso é genial?

  1. Economia de Energia: Você não gasta tempo escrevendo 10 versões de algo que já estava bom na primeira. Você foca a energia onde ela é realmente necessária.
  2. Velocidade (Latência): O método antigo de adaptação tentava ajustar a cada segundo, o que deixava o sistema lento. O AdaBoN faz o teste rápido no início e depois distribui tudo de uma vez. É como pedir para a cozinha preparar os pratos e só depois decidir quem recebe o quê, em vez de parar a cozinha a cada minuto para mudar o pedido.
  3. Funciona em Qualquer Lugar: O artigo testou isso com vários modelos de linguagem (como Llama, Mistral, Qwen) e vários avaliadores de qualidade. Funciona bem em todos, como uma chave universal.

Os Resultados na Prática

Os autores testaram isso em milhares de casos. Eles descobriram que:

  • O AdaBoN ganha da estratégia "fatia igual" na maioria das vezes.
  • Ele consegue resultados tão bons quanto a estratégia antiga, mas usando 20% menos de computação.
  • Quanto maior o grupo de histórias (o "batch"), melhor o gerente fica em distribuir os recursos, porque ele tem mais dados para entender o padrão de dificuldade.

Resumo em uma frase

O AdaBoN é como um chef que, em vez de cozinhar 10 pratos iguais para todos os clientes, prova uma colherada de cada pedido primeiro e só então decide quem precisa de um prato gigante e quem está satisfeito com uma porção pequena, economizando ingredientes e tempo sem perder a qualidade do jantar.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →