Post-Training with Policy Gradients: Optimality and the Base Model Barrier
Cet article démontre que l'entraînement par renforcement avec des récompenses de processus permet de surmonter la barrière de support du modèle de base et d'éviter la malédiction de la dimensionnalité, contrairement aux récompenses de résultats qui peuvent nécessiter un nombre exponentiel de requêtes pour dépasser le support initial.