Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards
Le papier présente VIP, une stratégie d'allocation de rollouts adaptative qui optimise l'efficacité de l'apprentissage par renforcement en ligne en attribuant dynamiquement le budget de calcul aux prompts les plus informatifs pour minimiser la variance du gradient, surpassant ainsi les méthodes d'allocation uniforme.