IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artigo estabelece regras prescritivas para a alocação ótima de recursos computacionais no pós-treinamento por reforço de LLMs, demonstrando que o número ideal de rolagens paralelas por problema aumenta e depois satura conforme o orçamento de computação, com mecanismos distintos para problemas fáceis e difíceis, enquanto o tamanho do lote de problemas pode ser ajustado em uma ampla faixa sem comprometer a estabilidade.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um chef de cozinha tentando criar o prato perfeito (um modelo de Inteligência Artificial) para resolver problemas matemáticos ou de lógica. Você tem um orçamento limitado de tempo e ingredientes (o "poder de computação").

A pergunta que os autores deste artigo querem responder é: "Como devo gastar meu tempo e ingredientes para obter o melhor resultado possível?"

Eles descobriram que, ao contrário de cozinhar um prato simples onde "mais tempo de cozimento" é sempre melhor, treinar uma IA com reforço (RL) é como gerenciar uma escola de culinária com muitos alunos diferentes.

Aqui está o "Manual de IsoCompute" traduzido para o dia a dia:

1. Os Três Ingredientes da Receita

Para treinar a IA, você precisa decidir como dividir seu orçamento em três partes:

  • nn (Tentativas por Aluno): Quantas vezes você deixa um aluno tentar resolver o mesmo problema antes de dar a resposta? (Ex: Deixar o aluno tentar 8 vezes ou 512 vezes?)
  • BpB_p (Número de Alunos): Quantos problemas diferentes você coloca na mesa de uma vez? (Ex: 32 problemas diferentes ou 2048?)
  • MM (Rodadas de Aula): Quantas vezes você passa por todo o conjunto de problemas? (Ex: Fazer o curso 1 vez ou 100 vezes?)

O segredo é que o orçamento total é fixo: C=Alunos×Tentativas×RodadasC = \text{Alunos} \times \text{Tentativas} \times \text{Rodadas}. Se você aumenta um, precisa diminuir os outros.

2. A Grande Descoberta: "Mais Tentativas" é Geralmente Melhor

A descoberta principal é que, à medida que você tem mais dinheiro (computação) para gastar, você deve aumentar o número de tentativas por problema (nn).

  • A Analogia do Detetive: Imagine que você tem um caso difícil.
    • Se você tem pouco tempo, você pergunta a 100 pessoas diferentes (muitos problemas, poucas tentativas cada).
    • Se você tem muito tempo, você pega 10 pessoas e as deixa investigar o caso exaustivamente por dias (poucos problemas, muitas tentativas cada).
    • Resultado: Com mais recursos, é melhor fazer os mesmos alunos tentarem muitas vezes até "entenderem" o padrão, do que apenas correr de um problema para outro.

3. O Diferença entre Problemas "Fáceis" e "Difíceis"

O comportamento muda dependendo de quão difícil é o problema para a IA:

  • Problemas Fáceis (O Aluno já sabe a resposta):
    • Aqui, aumentar as tentativas (nn) serve para refinar a resposta. É como um aluno que já sabe a tabuada, mas precisa praticar para não errar nenhum detalhe.
    • Analogia: É como polir um diamante. Você não precisa de mais diamantes, precisa de mais tempo de polimento no mesmo diamante.
  • Problemas Difíceis (O Aluno não sabe nada):
    • Aqui, aumentar as tentativas (nn) serve para encontrar a solução. É como procurar uma agulha num palheiro. Se você só olhar uma vez, não acha. Se olhar 500 vezes, talvez encontre.
    • Analogia: É como jogar uma rede de pesca. Quanto mais vezes você joga a rede no mesmo lugar (mais tentativas), maior a chance de pegar o peixe raro que está lá.

4. O Perigo de "Muitos Alunos, Pouco Tempo" (Interferência)

O artigo explica um fenômeno chamado interferência.
Se você tiver 1.000 alunos e apenas 1 minuto para cada um, você vai ensinar metade deles muito mal e a outra metade de forma medíocre. O aprendizado de um aluno "ruim" pode atrapalhar o aprendizado do "bom" porque a IA tenta aprender tudo ao mesmo tempo e fica confusa.

  • Solução: É melhor ter menos alunos (problemas) e dar a cada um deles muito tempo para praticar. Isso garante que a IA aprenda profundamente cada conceito antes de mudar de assunto.

5. A Regra de Ouro (O "Playbook")

Se você é um praticante e quer saber como configurar sua IA hoje:

  1. Comece com um número moderado de problemas (BpB_p) para garantir estabilidade (não tente ensinar 1 milhão de coisas de uma vez).
  2. Aumente o número de tentativas por problema (nn) conforme seu orçamento de computação cresce.
    • Orçamento Baixo: Foque em cobrir muitos problemas diferentes.
    • Orçamento Alto: Foque em explorar profundamente cada problema.
  3. Não se preocupe tanto com o número exato de problemas (desde que não seja zero ou infinito). O que realmente importa é o número de tentativas (nn).

Resumo em uma Frase

Para treinar uma IA de forma eficiente, não corra de um problema para o outro. Em vez disso, pegue menos problemas e deixe a IA tentar resolvê-los muitas vezes, especialmente se você tiver poder de computação suficiente. Quanto mais recursos você tiver, mais "teimosia" (tentativas) você deve permitir para cada desafio.

Isso transforma o treinamento de IA de um "chute no escuro" em uma estratégia calculada: menos problemas, mais profundidade.