Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning
Este artigo propõe uma abordagem de assincronia periódica que desacopla a inferência do treinamento em um pipeline produtor-consumidor, alcançando um aumento de 3 a 5 vezes no throughput de RL on-policy para LLMs sem comprometer a precisão ou introduzir viés off-policy.