Stabilizing Reinforcement Learning for Diffusion Language Models
Die Arbeit stellt StableDRL vor, eine für Diffusion-Sprachmodelle optimierte Reformulierung von GRPO, die durch unbedingtes Clipping und Selbstnormalisierung die Instabilität und den Reward-Kollaps bei der Nachtrainierung verhindert.