Preventing Learning Stagnation in PPO by Scaling to 1 Million Parallel Environments
En modélisant le boucle externe de PPO comme une optimisation stochastique, cette étude démontre que l'augmentation massive du nombre d'environnements parallèles (jusqu'à un million) permet de réduire le bruit du gradient et de prévenir la stagnation de l'apprentissage, permettant ainsi une amélioration monotone des performances jusqu'à un trillion de transitions.