Stabilizing Reinforcement Learning for Diffusion Language Models

Deze paper introduceert StableDRL, een gestabiliseerde variant van Group Relative Policy Optimization (GRPO) die specifiek is ontworpen om reward collapse te voorkomen bij het toepassen van versterkingslering op diffusie-taalmodellen door onbetrouwbare schattingen van waarschijnlijkheidsverhoudingen aan te pakken via onvoorwaardelijke clipping en zelf-normalisatie.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, creatieve robot (een Diffusion Large Language Model of dLLM) traint om moeilijke wiskundepuzzels op te lossen. Je wilt dat deze robot beter wordt door te oefenen met een systeem van beloningen: als hij een goed antwoord geeft, krijgt hij een puntje; als hij fouten maakt, krijgt hij een straf.

In de wereld van kunstmatige intelligentie heet dit Versterkend Leren (Reinforcement Learning). Voor de traditionele robots (die zogenoemde "autoregressieve" modellen zijn) werkt een bepaalde trainingsmethode, genaamd GRPO, fantastisch. Het is als een strenge maar eerlijke coach die de robot helpt om stap voor stap te verbeteren.

Maar hier zit de twist: als je dezezelfde coach (GRPO) probeert te gebruiken op de nieuwe, moderne robots (de Diffusion-modellen), gaat het volledig mis. De robot begint te trillen, raakt in paniek en stopt met leren. Dit fenomeen noemen de auteurs van dit paper een "beloningsinstorting" (reward collapse).

Waarom gaat het mis? (De "Gestoorde Scorekaart")

Het probleem zit hem in hoe de coach de prestaties meet.

  1. Bij de oude robots: De coach kan precies zien hoeveel waarschijnlijker het goede antwoord is dan het oude antwoord. Het is als een perfecte scorekaart.
  2. Bij de nieuwe robots: De coach kan die exacte score niet berekenen. Hij moet het schatten. En dat schatten is erg onnauwkeurig en ruisig, alsof je probeert de temperatuur te meten met een gebroken thermometer.

Deze "ruis" (fouten in de schatting) zorgt voor twee grote problemen:

  • Het "Paniek-Effect" (Gradient Spikes): Soms denkt de coach door de ruis dat de robot een enorme verbetering heeft gemaakt, terwijl hij eigenlijk niets gedaan heeft. Omdat de coach dit gelooft, geeft hij de robot een gigantische duw in de goede richting. Maar omdat het een leugen was, duwt hij de robot de verkeerde kant op. De robot raakt in paniek en maakt nog grotere fouten.
  • De "Zelfversterkende Lussen": De robot maakt nu grotere fouten, waardoor de coach de volgende keer nog slechtere schattingen maakt. Die slechte schattingen leiden weer tot nog grotere duwen. Het is een vicieuze cirkel: Fouten leiden tot paniek, paniek leidt tot meer fouten.

De Oplossing: StableDRL (De "Stabiele Coach")

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd StableDRL. Ze hebben de coach (GRPO) op twee cruciale manieren aangepast om deze paniek te stoppen:

1. De "Onvoorwaardelijke Rem" (Unconditional Clipping)

In het oude systeem mocht de coach alleen remmen als de robot al te ver weg was. Maar omdat de schattingen zo ruisig waren, kon de coach soms "vergeten" te remmen als de robot een enorme, nep-duw kreeg.
De oplossing: De nieuwe coach heeft een harde rem die altijd werkt, ongeacht wat er gebeurt. Als de schatting van de verbetering te groot wordt (bijvoorbeeld: "Hij is 1000% beter geworden!"), zegt de coach: "Nee, dat is onmogelijk door ruis. We gaan uit van maximaal 10%." Dit voorkomt die gigantische, destabiliserende duwen.

2. De "Eigen Groep-Norm" (Self-Normalization)

Stel je voor dat de coach een groep van 10 robots tegelijk bekijkt. In het oude systeem deelde hij de beloning door het vaste aantal robots (10). Maar als de schattingen van die 10 robots heel wisselend zijn (sommige zeggen "super!", andere "slecht!"), wordt de gemiddelde duw chaotisch.
De oplossing: De nieuwe coach kijkt niet naar het vaste getal 10, maar naar de totale kracht van de groep. Hij past de duw aan op basis van wat de groep echt heeft gedaan. Hierdoor blijft de duw altijd binnen een veilige, voorspelbare zone. Het is alsof je de kracht van een team niet deelt door het aantal mensen, maar door de totale energie die ze samen hebben.

Het Resultaat: Een Rustige Leraar

Met deze twee aanpassingen (de harde rem en de slimme groepsberekening) kunnen de nieuwe robots nu eindelijk stabiel leren.

  • Ze trillen niet meer.
  • Ze raken niet in paniek.
  • Ze kunnen duizenden trainingsstappen maken zonder te crashen.

In de praktijk betekent dit dat deze robots nu veel beter worden in logisch redeneren, wiskunde en puzzels oplossen dan ooit tevoren. Ze halen zelfs resultaten die beter zijn dan de beste traditionele robots.

Samenvattend in één zin:

De auteurs hebben een nieuwe trainingsmethode bedacht die de "ruis" in de schattingen van moderne AI-robots filtert, waardoor ze niet meer in paniek raken en eindelijk hun volle potentieel kunnen bereiken.