Partial Policy Gradients for RL in LLMs
Cet article propose une méthode de gradients de politique partielle pour l'apprentissage par renforcement dans les LLM, qui optimise un sous-ensemble de récompenses futures afin d'apprendre des politiques plus fiables et d'adapter différents niveaux de planification à des problèmes d'alignement conversationnel.