ExGRPO: Learning to Reason from Experience
Ce papier propose ExGRPO, un cadre d'optimisation stratégique qui améliore l'efficacité et la stabilité de l'apprentissage par renforcement des modèles de raisonnement en réutilisant et en priorisant sélectivement les expériences passées les plus pertinentes, telles que celles caractérisées par leur justesse et leur entropie.