ExGRPO: Learning to Reason from Experience

Each language version is independently generated for its own context, not a direct translation.

🧠 ExGRPO: De Slimme Leermeester voor AI

Stel je voor dat een kunstmatige intelligentie (een grote taalmodel) een student is die wiskundige raadsels moet oplossen. Om slim te worden, moet deze student veel oefenen.

In de oude manier van trainen (wat de paper "on-policy" noemt), doet de student dit zo:

De student probeert een probleem op te lossen.
Als het goed is, krijgt hij een stipje (beloning).
En dan? De docent gooit de hele uitwerking direct in de prullenbak en begint met een nieuw probleem.

Dit is enorm verspillend! Het is alsof je een chef-kok een perfecte taart laat bakken, hem een ster geeft, en hem vervolgens de taart laat weggooien omdat hij "al geleerd" is. De volgende taak begint weer bij nul. Dit kost veel tijd, energie en rekenkracht.

ExGRPO is een nieuwe, slimme methode om deze student te trainen. Het is een manier om ervaringen op te slaan en slim te hergebruiken.

🎒 De Drie Slimme Regels van ExGRPO

De onderzoekers hebben ontdekt dat niet alle ervaringen even waardevol zijn. ExGRPO gebruikt drie slimme regels om te bepalen wat de student moet herhalen:

1. De "Net-Niet-Te-Makkelijk" Regels (Moeilijkheidsgraad)

Stel je voor dat je een sporter traint.

Als je alleen maar oefent met een bal die je met één hand kunt vangen (te makkelijk), word je niet sterker.
Als je probeert een bal te vangen die met 100 km/u op je afkomt (te moeilijk), val je constant en raak je gefrustreerd.
De Gouden Middenweg: Je leert het meest als de bal net iets te snel is, maar je er toch een kans op hebt om hem te vangen.

ExGRPO kijkt naar de vragen die de AI net heeft beantwoord. Als de AI een vraag soms goed en soms fout maakt (ongeveer 50% succes), is dat de perfecte "moeilijkheidszone". Deze vragen worden opgeslagen in een herinneringskast (replay buffer). Vragen die te makkelijk of te moeilijk zijn, worden genegeerd of verwijderd.

2. De "Rustige Gedachten" Regels (Entropie)

Soms geeft de AI het juiste antwoord, maar is de manier waarop hij daar kwam heel rommelig, vol met twijfel en gekke afleidingen.

Vergelijking: Stel je hebt twee studenten die hetzelfde examen halen.
- Student A schrijft een helder, logisch verhaal.
- Student B schrijft een verhaal vol met "misschien", "misschien", en probeert het antwoord te raden door 100 willekeurige dingen te proberen totdat het klopt.
ExGRPO kijkt naar de rust in het denken (wat ze "entropie" noemen). Ze kiezen alleen de antwoorden waar het denken rustig en logisch was. Ze gooien die rommelige, "geluks-antwoorden" weg, omdat die de student alleen maar verwarren.

3. De "Mix van Oud en Nieuw" Regels

In plaats van alleen nieuwe problemen te doen, pakt ExGRPO een handvol oude, goede voorbeelden uit de herinneringskast en mengt ze met de nieuwe oefeningen.

Het is alsof een trainer zegt: "Vandaag doen we 50% nieuwe oefeningen, en 50% herhaling van de beste voorbeelden uit de vorige week."
Dit zorgt ervoor dat de student niet vergeet wat hij al goed deed, en dat hij sneller leert zonder elke keer opnieuw te hoeven beginnen.

🚀 Wat is het Resultaat?

De onderzoekers hebben deze methode getest op verschillende modellen (van klein tot groot). De resultaten waren indrukwekkend:

Sneller leren: De AI werd beter in wiskunde en logisch denken met minder rekenkracht.
Stabieler: Bij de oudere of zwakkere modellen (zoals de Llama-3.1) faalde de oude methode vaak; de AI raakte in de war en stopte met leren. Met ExGRPO bleef de training stabiel en bleef de AI doorgroeien.
Beter op het onbekende: De AI werd niet alleen beter in de oefeningen die hij al kende, maar kon die vaardigheden ook beter toepassen op nieuwe, vreemde problemen.

🎯 Conclusie in één zin

ExGRPO is als een slimme trainer die niet alleen nieuwe dingen laat oefenen, maar ook weet welke oude oefeningen het meest waardevol zijn om te herhalen, zodat de AI niet blijft steken in de prullenbak, maar echt groeit.

Het paper laat zien dat voor het trainen van slimme AI's, kwaliteit van ervaring belangrijker is dan hoeveelheid van ervaring.

Each language version is independently generated for its own context, not a direct translation.

Titel: ExGRPO: Learning to Reason from Experience

Publicatie: ICLR 2026 (Conference Paper)

1. Het Probleem

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een opkomend paradigma om de redeneercapaciteiten van grote taalmodellen (LLMs) te verbeteren. De huidige standaardaanpak is on-policy training (zoals GRPO), waarbij het model nieuwe rollouts genereert, één update uitvoert en vervolgens de gegenereerde ervaringen (rollouts) verworpt.

Dit leidt tot twee fundamentele problemen:

Computational Inefficiency: Waardevolle ervaringen die tijdens het genereren zijn opgedaan, worden na één update weggegooid, wat leidt tot een enorme verspilling van rekenkracht.
Instabiliteit: On-policy methoden kunnen instabiel worden, vooral bij zwakkere modellen of tijdens continue leerprocessen, omdat het model geen gebruik maakt van eerdere succesvolle exploraties om de training te stabiliseren.

Hoewel Experience Replay (het hergebruiken van oude data) een standaardtechniek is in traditioneel RL, is de rol van de kwaliteit en eigenschappen van deze ervaringen in RLVR voor grote redeneermodellen (LRMs) nog niet systematisch onderzocht. Niet alle ervaringen zijn even waardevol; het hergebruiken van slechte of misleidende ervaringen kan zelfs schadelijk zijn.

2. Methodologie: ExGRPO

De auteurs stellen ExGRPO (Experiential Group Relative Policy Optimization) voor, een raamwerk dat ervaringen strategisch beheert, selecteert en hergebruikt om de sample-efficiëntie te verhogen en de training te stabiliseren.

A. Analyse van Ervaringswaarde

Voordat het model werd ontworpen, onderzochten de auteurs welke eigenschappen een ervaring waardevol maken voor RLVR:

Vraagmoeilijkheid: Ervaringen met vragen van gemiddelde moeilijkheidsgraad (waar het model ongeveer 50% van de rollouts correct heeft) leveren de beste leersignalen op. Te makkelijke vragen bieden geen uitdaging, en te moeilijke vragen leveren vaak geen bruikbare signalen op.
Traject-Entropie: Lage entropie in de redeneringsketen (Chain-of-Thought) correleert met hogere kwaliteit en logica. Hoge entropie wijst vaak op onzekerheid en "geluksklappen" of misleidende redeneringen (het "snowball-effect" van fouten).

B. Het ExGRPO Framework

ExGRPO werkt in twee fasen:

Ervaringsbeheer (Experience Management):
- Verzameling: Succesvolle rollouts worden opgeslagen in een replay-buffer.
- Partitionering: De buffer wordt opgedeeld in "buckets" op basis van de correctheidsgraad (Acc) van de vraag (bijv. 0-25%, 25-75%, 75-100%).
- Retired Set: Vragen die volledig onder de knie zijn (100% correct) worden verwijderd uit de buffer om overfitting op triviale gevallen te voorkomen.
- Selectie: Tijdens het trainen worden vragen geselecteerd uit de buckets met de hoogste waarschijnlijkheid voor gemiddelde moeilijkheid (een Gaussische verdeling rond 0.5). Voor elke geselecteerde vraag wordt het traject met de laagste entropie gekozen als de beste representatie van de redenering.
Ervaringsgebaseerde Policy Optimalisatie:
- ExGRPO gebruikt een gemengde doelstelling (Mixed-Policy Objective). Een mini-batch bestaat uit een mix van nieuwe on-policy samples en geselecteerde ervaringen uit de buffer.
- Importance Weighting: Om de distributieverschuiving tussen het huidige beleid en het beleid dat de ervaring genereerde te corrigeren, wordt er een importance weight toegepast.
- Policy Shaping: Om te voorkomen dat het hergebruiken van oude data de exploratie doodt, wordt een niet-lineaire transformatie ( $f(w) = w / (w + \beta)$ ) toegepast op de importance weights van de gereplayde trajecten. Dit dempt extreme waarden en moedigt het leren van nieuwe aspecten aan.
- Delayed Start: ExGRPO wordt pas geactiveerd nadat het model een bepaalde drempel van succes (Pass@1) heeft bereikt, om te voorkomen dat het model in de vroege fasen slechte ervaringen leert.

3. Belangrijkste Bijdragen

Eerste Systematische Analyse: Het paper is de eerste die de relatie tussen ervaringseigenschappen (correctheid en entropie) en de leerprestaties van RLVR in kaart brengt.
ExGRPO Framework: Een nieuw algoritme dat ervaringen niet willekeurig, maar op basis van kwaliteit (moeilijkheidsgraad en entropie) selecteert en hergebruikt.
Stabilisatie van Training: ExGRPO lost het probleem van instabiliteit op bij on-policy RLVR, vooral bij modellen die anders zouden falen (zoals Llama-3.1 8B Base).
Efficiëntie: Het verhoogt de sample-efficiëntie aanzienlijk door waardevolle ervaringen meerdere keren te gebruiken in plaats van ze één keer te verbranden.

4. Resultaten

De auteurs hebben ExGRPO getest op vijf verschillende backbone-modellen (Qwen en Llama families, van 1.5B tot 8B parameters) op wiskundige en algemene redeneerbenchmarks.

Prestatieverbetering: ExGRPO presteert consistent beter dan on-policy RLVR baselines.
- Gemiddelde winst op in-distribution benchmarks: +3.5 punten.
- Gemiddelde winst op out-of-distribution benchmarks: +7.6 punten.
Stabiliteit: Waar on-policy training faalde bij het Llama-3.1 8B Base model (door instorting/entropy explosion), slaagde ExGRPO erin om stabiele training en verbetering te realiseren.
Continue Leer: Bij het LUFFY-model (een sterk model dat al op off-policy data is getraind) leverde ExGRPO verdere verbeteringen op, terwijl on-policy training hier juist leidde tot degradatie.
Ablatie Studies: Experimenten bevestigden dat zowel de selectie op moeilijkheidsgraad als de selectie op lage entropie essentieel zijn voor de prestaties. Het gebruik van een te hoge ratio van ervaringen (75%) leidde tot overexploitatie en slechtere prestaties, terwijl een ratio van 50% optimaal bleek.

5. Betekenis en Impact

Dit paper markeert een verschuiving in hoe we Reinforcement Learning voor taalmodellen benaderen. Het toont aan dat principiële ervaringbeheer (principled experience management) een sleutelcomponent is voor schaalbare en efficiënte RLVR.

In plaats van blindelings meer rekenkracht te gebruiken voor nieuwe rollouts, stelt ExGRPO dat het slimme hergebruiken van de juiste oude ervaringen (die van gemiddelde moeilijkheid en hoge logica) cruciaal is. Dit maakt het mogelijk om redeneermodellen te trainen die stabieler zijn, minder rekenkracht nodig hebben voor hetzelfde resultaat, en beter presteren op complexe, onbekende taken. De code en modellen zijn open-source beschikbaar gesteld, wat de reproduceerbaarheid en verdere ontwikkeling in de gemeenschap stimuleert.