From $\boldsymbol{\log\pi}$ to $\boldsymbol{\pi}$: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight

Each language version is independently generated for its own context, not a direct translation.

Van "Hard Stop" naar "Zacht Remmen": Hoe een nieuwe methode AI slimmer maakt

Stel je voor dat je een zeer slimme, maar nog jonge robot (een Groot Taalmodel of LLM) traint om wiskundige problemen op te lossen. Je wilt dat hij leert door te proberen, fouten te maken en te verbeteren. Dit noemen we Versterkend Leren (RL).

Het probleem is echter: hoe train je die robot zonder dat hij in paniek raakt of stopt met leren?

1. Het Oude Probleem: De "Hard Clipping" Methode

Tot nu toe gebruikten de meeste methoden (zoals GRPO) een techniek die we "Hard Clipping" noemen.

De Metafoor: Stel je voor dat de robot een auto bestuurt en je hebt een snelheidsbeperking ingesteld. Als de auto iets te hard rijdt (een stap die te ver weg is van wat hij al weet), zegt het oude systeem: "Stop direct! Je hebt de grens overschreden. Geen enkele beweging meer, je motor wordt uitgeschakeld."
Het Nadeel: De robot leert hierdoor niet van die snelle bewegingen. Hij wordt bang om te experimenteren. Hij blijft veilig, maar hij wordt niet beter. Hij raakt vast in een patroon en stopt met groeien (dit noemen ze "entropie-collaps").

2. De Nieuwe Poging: "Soft Clipping" (En waarom die faalt)

Recentere methoden probeerden dit op te lossen door niet direct te stoppen, maar zachtjes te remmen. Ze zagen dat de robot soms stappen maakt die heel onwaarschijnlijk lijken (zeer lage kans), maar juist heel waardevol zijn.

Het Nieuwe Probleem: Deze methoden keken naar de logarithme van de kans. In wiskundige termen betekent dit: als de kans op een stap heel klein wordt (bijna nul), wordt de "remkracht" die ze toepassen oneindig groot.
De Metafoor: Het is alsof je de auto remt, maar hoe langzamer je rijdt, hoe harder de remmen knarsen tot de wielen volledig blokkeren en de auto uit elkaar valt. De robot wordt zo onstabiel dat hij crasht in plaats van leert.

3. De Oplossing: DGPO (Decoupled Gradient Policy Optimization)

De auteurs van dit paper (van Meituan en universiteiten) hebben een nieuwe manier bedacht: DGPO. Ze zeggen: "Waarom kijken we naar de logaritme? Laten we gewoon naar de kans zelf kijken."

Ze introduceren een slimme, ontkoppelde remtechniek (Decoupled Decay):

Links (Te onzeker): Als de robot een stap zet die bijna onmogelijk lijkt (zeer lage kans), remmen ze zachtjes af.
- Metafoor: In plaats van de motor uit te schakelen, geven ze een zachte duw: "Hé, dat was een beetje te gek. Ga iets rustiger, maar blijf wel rijden." Dit voorkomt dat de robot in paniek raakt.
Rechts (Te zeker): Als de robot een stap zet die hij al heel vaak doet (hoge kans), remmen ze ook, maar op een andere manier om te zorgen dat hij niet te snel in een routine vervalt.
- Metafoor: "Je bent te zeker van je zaak. Probeer eens iets anders, maar doe het rustig aan."

Het Magische Effect:
Door deze twee remmen los van elkaar te koppelen (de "ontkoppelde" methode), voorkomen ze dat de remmen ooit oneindig hard worden. De robot kan blijven experimenteren (leren van nieuwe dingen) zonder dat de training instabiel wordt.

4. Wat hebben ze bewezen?

Ze hebben deze nieuwe methode getest op verschillende maten van AI-modellen (van klein tot groot) en op moeilijke wiskundetoetsen (zoals de AIME, een olympiade voor wiskunde).

Resultaat: De robot met DGPO scoort beter dan de oude methoden.
Waarom? Omdat hij durft te experimenteren zonder te crashen. Hij vindt de juiste antwoorden sneller en betrouwbaarder.

Samenvatting in één zin

Het oude systeem schold de AI uit als hij iets nieuws probeerde (en stopte hem), het nieuwe systeem (DGPO) geeft hem een zachte duw in de goede richting, zodat hij blijft leren zonder uit elkaar te vallen.

De kernboodschap: Door te stoppen met kijken naar ingewikkelde wiskundige "logaritmen" en gewoon naar de simpele "kansen" te kijken, kunnen we AI's veel stabieler en slimmer trainen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft een grote sprong gemaakt in het redeneren van Large Language Models (LLM's), maar de optimalisatiedynamiek blijft kwetsbaar. Bestaande algoritmen zoals GRPO (Group Relative Policy Optimization) gebruiken "hard clipping" om stabiliteit te garanderen door de Importance Sampling (IS) ratio binnen een betrouwbaar gebied te houden. Dit heeft echter een nadeel: het verwijdert volledig de gradiënten van tokens die buiten dit gebied vallen, wat exploratie stopt en leidt tot entropie-inzakking (entropy collapse).

Recente pogingen om dit op te lossen via "soft clipping" (zoals CISPO, GPPO, CE-GPPO) proberen deze gradiënten te behouden. Deze methoden werken echter voornamelijk met de log-probabiliteitsgradiënt ( $\nabla_\theta \log \pi_\theta$ ). Het paper identificeert een fundamenteel probleem hiermee: wanneer de waarschijnlijkheid ( $\pi_\theta$ ) naar nul nadert (aan de linkerkant van de IS-ratio), groeit de gewichtsfactor van de log-probabiliteitsgradiënt divergent (naar oneindig). Dit veroorzaakt catastrofale instabiliteit tijdens het trainen, omdat tokens met zeer lage kansen disproportioneel zwaar worden bestraft of de training laten instorten.

Methodologie: DGPO

De auteurs stellen een paradigma-verschuiving voor: in plaats van de log-probabiliteit, moet de waarschijnlijkheidsgradiënt ( $\nabla_\theta \pi_\theta$ ) de primaire optimalisatieprimitief zijn. Dit wordt onderbouwd door twee inzichten:

RL-objectieven zijn inherent uitgelijnd met het maximaliseren van waarschijnlijkheden, niet log-probabiliteiten.
De ruimte van waarschijnlijkheden (0, 1) is symmetrisch en begrensd, wat een stabielere gradiëntontwerp mogelijk maakt dan de asymmetrische, onbegrensde log-probabiliteitruimte.

Op basis hiervan introduceren ze Decoupled Gradient Policy Optimization (DGPO). De kern van DGPO is een gekoppeld vervalmechanisme (decoupled decay mechanism) voor de gewichten van de gradiënt, gebaseerd op de IS-ratio's:

Linker Grens (LN - Low Ratio, Negatieve Advantages): Hier wordt een polynoomverval toegepast op de waarschijnlijkheid. Dit zorgt ervoor dat de gewichten afnemen naarmate de kans daalt, wat stabiliteit garandeert en divergentie voorkomt.
Rechter Grens (HP - High Ratio, Positieve Advantages): Hier wordt een reciproke wortelverval toegepast. Dit bevordert exploratie door de gewichten zachtjes te laten afnemen in plaats van ze abrupt te stoppen of ze divergent te laten worden.

De gewichtsfunctie $W_{DGPO}$ wordt als volgt gedefinieerd (waarbij $n$ en $m$ hyperparameters zijn die het verval regelen):

Voor LN: $C_{left} \cdot \pi_\theta^n$
Voor HP: $C_{right} \cdot \pi_\theta^{-1/m}$
Binnen de grenzen: De standaard IS-ratio.

De constanten $C_{left}$ en $C_{right}$ worden wiskundig afgeleid om continuïteit van de gradiënt aan de grenzen te waarborgen. Dit mechanisme lost het conflict op tussen stabiliteit (nodig voor convergentie) en exploratie (nodig voor het vinden van betere oplossingen).

Belangrijkste Bijdragen

Paradigmaverschuiving: Het paper vestigt de waarschijnlijkheidsgradiënt ( $\nabla_\theta \pi_\theta$ ) als superieur aan de log-probabiliteitsgradiënt voor RLVR, wat leidt tot theoretisch onderbouwde stabiliteit.
DGPO Algoritme: Een nieuw algoritme dat een asymmetrisch, continu vervalmechanisme toepast om de gradiënten van "geclippte" tokens te behouden zonder divergentie. Het lost het probleem van de divergerende gewichten aan de linkergrens op dat andere soft-clipping methoden parten speelt.
Theoretische Garantie: Het biedt bewijzen voor minimale bias ten opzichte van de ware policy gradient en garandeert gradiëntcontinuïteit, wat essentieel is voor robuuste convergentie.

Resultaten

De auteurs hebben DGPO uitgebreid getest op de DeepSeek-R1-Distill-Qwen serie modellen (1.5B, 7B en 14B parameters) op diverse wiskundige benchmarks (AIME24/25, AMC23, MATH500, Minerva, OlympiadBench).

Prestatie: DGPO presteert consequent beter dan sterke baselines (GRPO, CISPO, GPPO, CE-GPPO, ASPO).
- Op het 1.5B model: +4.3% verbetering in Avg@32 ten opzichte van GRPO.
- Op het 7B model: +3.1% verbetering ten opzichte van GRPO.
- Op het 14B model: +3.1% verbetering in Avg@32.
Training Dynamiek: In tegenstelling tot CISPO en GPPO, die vaak instorten door divergentie aan de linkergrens, of GRPO/ASPO, die te vroeg convergeren door gebrek aan exploratie, toont DGPO een stabiele entropiedaling en een soepele convergentie.
Scalabiliteit: De methode schaalbaar naar grotere modellen (tot 14B) en behoudt zijn voordelen, hoewel de optimale hyperparameters ( $n$ en $m$ ) iets variëren per modelgrootte om de intrinsieke entropie-variabiliteit te managen.

Betekenis en Impact

Dit paper biedt een fundamentele oplossing voor een van de grootste obstakels in het toepassen van Reinforcement Learning op LLM's: de afweging tussen stabiliteit en exploratie. Door de focus te verleggen van log-probabiliteiten naar waarschijnlijkheden en een nieuw vervalmechanisme te introduceren, maken de auteurs RLVR robuuster en schaalbaarder.

De resultaten suggereren dat het maximaliseren van de redeneercapaciteit van LLM's vereist dat we de wiskundige basis van de optimalisatie heroverwegen. DGPO biedt een schaalbare, theoretisch onderbouwde route om de prestaties van LLM's op complexe taken zoals wiskundig redeneren verder te optimaliseren zonder de stabiliteit van het trainingsproces te riskeren. De code is open-source beschikbaar gesteld, wat de adoptie en verdere research in de gemeenschap zal stimuleren.

From log⁡π\boldsymbol{\log\pi}logπ to π\boldsymbol{\pi}π: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight

Van "Hard Stop" naar "Zacht Remmen": Hoe een nieuwe methode AI slimmer maakt

1. Het Oude Probleem: De "Hard Clipping" Methode

2. De Nieuwe Poging: "Soft Clipping" (En waarom die faalt)

3. De Oplossing: DGPO (Decoupled Gradient Policy Optimization)

4. Wat hebben ze bewezen?

Samenvatting in één zin

Probleemstelling

Methodologie: DGPO

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

A Layer-wise Analysis of Supervised Fine-Tuning

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

From $\boldsymbol{\log\pi}$ to $\boldsymbol{\pi}$ : Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight