IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL
Este artigo estabelece regras prescritivas para a alocação ótima de recursos computacionais no pós-treinamento por reforço de LLMs, demonstrando que o número ideal de rolagens paralelas por problema aumenta e depois satura conforme o orçamento de computação, com mecanismos distintos para problemas fáceis e difíceis, enquanto o tamanho do lote de problemas pode ser ajustado em uma ampla faixa sem comprometer a estabilidade.