The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Each language version is independently generated for its own context, not a direct translation.

De Dilemma van de Slimme AI: Waarom "Meer Proberen" soms Slechter Werkt

Stel je voor dat je een zeer slimme student (een Large Language Model of LLM) hebt die wiskunde en SQL (database-taal) leert. Je wilt deze student trainen met een speciale methode genaamd RLVR (Reinforcement Learning met Verifieerbare Beloningen). Het idee is simpel: de student probeert een probleem op te lossen, en als het antwoord klopt, krijgt hij een beloning.

Het Paradoxale Probleem
Er is een vreemd fenomeen opgetreden. Als je deze student traint, wordt hij steeds beter in het vinden van één correct antwoord op de eerste poging (Pass@1). Maar als je hem vraagt om veel verschillende pogingen te doen (bijvoorbeeld 8 keer proberen om één van de 8 keer het juiste antwoord te vinden, oftewel Pass@8), gaat het juist slechter!

Het is alsof je een chef-kok traint om de perfecte biefstuk te maken. Na de training maakt hij elke keer dezelfde perfecte biefstuk. Maar als je vraagt: "Maak 8 verschillende gerechten, waarvan er minstens één lekker moet zijn", faalt hij. Hij probeert alleen nog maar die ene biefstuk te maken en verliest de vaardigheid om te variëren. In de AI-wereld noemen we dit Diversity Collapse (instorting van diversiteit). De AI vergeet ook vaak wat hij eerder kon (Catastrophic Forgetting).

De Oude Oplossing: De "Strenge Leraar"

Tot nu toe gebruikten onderzoekers een wiskundige regel (de Reverse-KL-divergentie) om de AI te dwingen niet te ver af te wijken van zijn oorspronkelijke kennis.

De Vergelijking: Stel je een strenge leraar voor die zegt: "Je mag alleen die ene manier gebruiken die al bewezen werkt. Probeer niets nieuws."
Het Gevolg: De AI wordt heel goed in die ene manier, maar hij wordt een "eenheidsworst". Hij durft geen andere oplossingen meer te bedenken. Hij wordt zo gefocust op de "veilige" weg dat hij zijn creativiteit en brede kennis verliest.

De Nieuwe Oplossing: DPH-RL (De "Herhalingstrainer")

De auteurs van dit paper zeggen: "Wacht even! We gebruiken de verkeerde soort leraar." Ze stellen een nieuwe methode voor: DPH-RL.

In plaats van de AI te straffen voor het proberen van nieuwe dingen, gebruiken ze een ander wiskundig instrument (een Forward-KL of JS-divergentie) dat fungeert als een herhalingssessie.

De Vergelijking: In plaats van een strenge leraar die zegt "Doe alleen wat je al weet", hebben we nu een coach die een "herinneringsboek" bijhoudt.
- De coach zegt: "Oké, probeer nieuwe, creatieve oplossingen voor moeilijke problemen. Maar voor de problemen die je al perfect kunt, moet je blijven herhalen hoe je die oplost, zodat je het niet vergeet."
- Het is alsof je een sporter traint: Hij moet nieuwe trucs leren (exploratie), maar hij moet ook elke dag zijn basisoefeningen doen (herhaling) om zijn spiergeheugen niet te verliezen.

Hoe Werkt Het In De Praktijk?

De methode splitst de training in twee delen:

De Moeilijke Dingen (Exploratie): Voor problemen die de AI nog niet goed kan, laat je hem vrij. Hij mag alles proberen, fouten maken en nieuwe wegen verkennen. Hier is geen strenge regel die hem beperkt.
De Makkelijke Dingen (Herhaling): Voor problemen die de AI al goed kan, gebruiken we de nieuwe "herhalingstechniek". We dwingen de AI om te blijven kijken naar zijn oorspronkelijke, diverse kennis. We zeggen: "Vergeet niet dat er meerdere manieren zijn om dit op te lossen."

Waarom Is Dit Zo Groot?

De resultaten zijn indrukwekkend:

Beter in Alles: De AI wordt niet alleen beter in het vinden van één goed antwoord, maar ook in het vinden van veel verschillende goede antwoorden (Pass@k).
Vergeet Hij Niets: De AI vergeet zijn oude vaardigheden niet meer. Hij kan zelfs problemen oplossen die hij nooit eerder heeft gezien (buiten de training), omdat hij zijn brede kennisbasis heeft behouden.
Efficiënt: Het is niet duur om te berekenen. Het is alsof je een slimme coach hebt die geen extra mensen nodig heeft om te kijken of je goed traint; hij doet het zelf.

Conclusie

Kortom: De AI-wereld was te lang gefocust op het "straffen" van afwijkingen, waardoor de AI saai en star werd. Dit paper laat zien dat als je de AI juist moedigt om zijn oude kennis te herhalen terwijl hij nieuwe dingen leert, hij slimmer, creatiever en betrouwbaarder wordt.

Het is de verschil tussen een robot die alleen maar één liedje kan zingen (de oude methode) en een zanger die een heel repertoire heeft en ook nog eens nieuwe nummers kan schrijven (de nieuwe DPH-RL methode).

Each language version is independently generated for its own context, not a direct translation.

Titel: De Keuze van Divergentie: Een Verwaarloosde Sleutel tot het Mitigeren van Diversiteitsinstorting in RL met Verifieerbare Beloningen

Auteurs: Long Li et al. (Fudan University, INFLY TECH, etc.)
Publicatie: ICLR 2026

1. Het Probleem: Diversiteitsinstorting en Catastrophical Forgetting

Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR) de prestaties van Large Language Models (LLMs) op taken zoals wiskunde en codering aanzienlijk heeft verbeterd (gemeten aan de hand van Pass@1), heeft de gemeenschap een cruciaal paradox ontdekt:

Diversiteitsinstorting (Diversity Collapse): Hoewel de kans op een correct antwoord in één poging (Pass@1) stijgt, daalt of stagneert de prestatie bij meerdere pogingen (Pass@k). Dit suggereert dat het model overfit op één specifieke oplossingsroute en andere geldige manieren om het probleem op te lossen, verliest.
Catastrophical Forgetting: Modellen vergeten eerder aangeleerde vaardigheden, vooral bij taken buiten het trainingsdomein (Out-of-Domain of OOD).
De Oorzaak: De paper identificeert de standaard Reverse-KL-divergentie ( $D_{KL}(\pi_\theta || \pi_{ref})$ ) als de hoofdoorzaak. Deze divergentie is "mode-seeking": het straft het nieuwe beleid ( $\pi_\theta$ ) af voor het toekennen van waarschijnlijkheid aan acties die het referentiebeleid ( $\pi_{ref}$ ) als onwaarschijnlijk beschouwt. Dit dwingt het model om zich te concentreren op één hoog-probabiliteitsmodus, waardoor de diversiteit van oplossingen wordt onderdrukt. Bestaande methoden die geen divergentie-term gebruiken, missen eveneens een mechanisme om het model vast te houden aan zijn oorspronkelijke kennisbasis.

2. Methodologie: DPH-RL (Diversity-Preserving Hybrid RL)

De auteurs stellen een fundamentele verschuiving voor: in plaats van de divergentie-term alleen te gebruiken als een beperking, gebruiken ze deze als een actief mechanisme voor kennisbehoud door over te schakelen op mass-covering f-divergenties.

Kerncomponenten van de methode:

Gebruik van Mass-Covering Divergenties:
- In plaats van Reverse-KL, gebruiken ze Forward-KL ( $D_{KL}(\pi_{ref} || \pi_\theta)$ ) en Jensen-Shannon (JS)-divergentie.
- Forward-KL is "mass-covering": het straft het nieuwe beleid af als het niet de acties dekt die het referentiebeleid met hoge waarschijnlijkheid genereert. Dit fungeert als een "rehearsal mechanism" (herhaling), waarbij het model gedwongen wordt om zijn oorspronkelijke kennisbasis breed te houden.
Hybride Dataset Strategie:
- De dataset $D$ $D$ wordt opgesplitst in twee subsets:
  - $D_{exp}$ (Exploration): Moeilijke vragen waar het referentiebeleid faalt. Hier wordt de divergentie-straf volledig verwijderd om maximale exploratie toe te staan.
  - $D_{pef}$ (Near-Perfect): Vragen waar het referentiebeleid al goed presteert. Hier wordt de f-divergentie (Forward-KL of JS) toegepast om de oorspronkelijke vaardigheden te behouden en catastrofale vergetelheid te voorkomen.
Generator-gebaseerde Implementatie:
- Een belangrijke innovatie is dat de divergentie wordt berekend met behulp van vooraf gegenereerde samples van het referentiebeleid. Dit elimineert de noodzaak om tijdens het online trainen een extra referentiemodel te draaien, wat de rekenefficiëntie aanzienlijk verbetert.
Theoretische Garantie:
- De auteurs leiden een verbeterde monotonische verbeteringsgarantie af (Theorem 1), gebaseerd op TRPO. Ze tonen aan dat hun methode een strengere ondergrens biedt voor beleidsverbetering door het benutten van expert-gedrag in de $D_{pef}$ subset.

3. Belangrijkste Bijdragen

Systematische Analyse: Het paper biedt het eerste systematische bewijs dat Reverse-KL de oorzaak is van diversiteitsinstorting en OOD-verval in RLVR, en dat het ontbreken van een divergentie-term even schadelijk kan zijn.
Nieuw Framework (DPH-RL): Introductie van een framework dat f-divergenties gebruikt als een actieve "rehearsal"-mechanisme. Dit is orthogonaal (onafhankelijk) van bestaande methoden die zich richten op entropiecontrole of beloningsshaping.
Efficiëntie en Generalisatie: De methode vereist geen online referentiemodel en presteert superieur op zowel binnen-domein als buiten-domein taken.

4. Resultaten

De methode is getest op wiskundige redenering en SQL-generatie (met modellen zoals Llama-3.1-8B en Qwen2.5-7B/32B).

Verbetering in Pass@k: DPH-RL (zowel de Forward-KL variant als de JS-variant) slaat de GRPO-baseline en DAPO.
- Op de Bird-dataset (SQL) behalen DPH-methoden hogere Pass@8 en Pass@16 scores dan de basismodellen, terwijl GRPO en DAPO vaak onder het niveau van het basismodel zakken.
- Op de Spider-dataset (cross-domain SQL) behoudt DPH-RL de prestaties veel beter dan andere methoden, wat aantoont dat het model niet overfit op het trainingsdomein.
Vermindering van Catastrophical Forgetting: Modellen getraind met DPH-RL behouden hun vermogen om problemen op te lossen die ze eerder konden oplossen (hoge "keep rate"), terwijl ze tegelijkertijd nieuwe oplossingen ontdekken.
Buiten-Domein (OOD) Generalisatie: Bij evaluatie op wiskundetaken na training op SQL, presteerden DPH-methoden aanzienlijk beter (tot 8% verbetering in gemiddelde score) dan GRPO en DAPO, die zwaar overfitten op het SQL-domein.
Efficiëntie: De "Generator"-implementatie is even snel als GRPO, maar biedt veel betere resultaten.

5. Betekenis en Conclusie

Dit paper benadrukt dat de keuze van de divergentiemaatstaf een kritieke, maar vaak verwaarloosde factor is in het trainen van RLVR-modellen.

Paradigmaverschuiving: Het paper beweert dat we moeten stoppen met het zien van de KL-divergentie als een passieve beperking en het moeten zien als een actief hulpmiddel om diversiteit te behouden.
Praktische Impact: Door het gebruik van Forward-KL of JS-divergentie kunnen ontwikkelaars modellen bouwen die niet alleen nauwkeuriger zijn in één poging, maar ook robuuster, diverser en beter in staat zijn om kennis over te dragen naar nieuwe domeinen zonder catastrofale vergetelheid.
Aanbeveling: De auteurs bevelen de DPH-JS (Generator) variant met een drempel van '8 van 8' correcte pogingen voor de $D_{pef}$ subset aan als de optimale configuratie voor toekomstig onderzoek.

Kortom, DPH-RL lost het dilemma op tussen "greedy performance" (Pass@1) en "diversiteit" (Pass@k) door de fundamentele wiskunde van de divergentiemaatstaf te herdefiniëren.

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

De Dilemma van de Slimme AI: Waarom "Meer Proberen" soms Slechter Werkt

De Oude Oplossing: De "Strenge Leraar"

De Nieuwe Oplossing: DPH-RL (De "Herhalingstrainer")

Hoe Werkt Het In De Praktijk?

Waarom Is Dit Zo Groot?

Conclusie

Titel: De Keuze van Divergentie: Een Verwaarloosde Sleutel tot het Mitigeren van Diversiteitsinstorting in RL met Verifieerbare Beloningen

1. Het Probleem: Diversiteitsinstorting en Catastrophical Forgetting

2. Methodologie: DPH-RL (Diversity-Preserving Hybrid RL)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction