Stabilizing Reinforcement Learning for Diffusion Language Models
Deze paper introduceert StableDRL, een gestabiliseerde variant van Group Relative Policy Optimization (GRPO) die specifiek is ontworpen om reward collapse te voorkomen bij het toepassen van versterkingslering op diffusie-taalmodellen door onbetrouwbare schattingen van waarschijnlijkheidsverhoudingen aan te pakken via onvoorwaardelijke clipping en zelf-normalisatie.