Periodic Asynchrony: An On-Policy Approach for Accelerating LLM Reinforcement Learning
Este trabajo propone un marco de asincronía periódica que desacopla la inferencia del entrenamiento en un pipeline productor-consumidor, logrando un aumento de tres a cinco veces en el rendimiento sin sacrificar la corrección on-policy ni la precisión, gracias a una arquitectura tri-modelo unificada y un mecanismo de atención de prompt compartido.