ExGRPO: Learning to Reason from Experience

Dit paper introduceert ExGRPO, een nieuw framework dat de efficiëntie en stabiliteit van reinforcement learning voor redeneermodellen verbetert door waardevolle ervaringen te selecteren op basis van correctheid en entropie, wat leidt tot betere prestaties op wiskundige en algemene benchmarks vergeleken met traditionele on-policy methoden.

Runzhe Zhan, Yafu Li, Zhi Wang, Xiaoye Qu, Dongrui Liu, Jing Shao, Derek F. Wong, Yu Cheng

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🧠 ExGRPO: De Slimme Leermeester voor AI

Stel je voor dat een kunstmatige intelligentie (een grote taalmodel) een student is die wiskundige raadsels moet oplossen. Om slim te worden, moet deze student veel oefenen.

In de oude manier van trainen (wat de paper "on-policy" noemt), doet de student dit zo:

  1. De student probeert een probleem op te lossen.
  2. Als het goed is, krijgt hij een stipje (beloning).
  3. En dan? De docent gooit de hele uitwerking direct in de prullenbak en begint met een nieuw probleem.

Dit is enorm verspillend! Het is alsof je een chef-kok een perfecte taart laat bakken, hem een ster geeft, en hem vervolgens de taart laat weggooien omdat hij "al geleerd" is. De volgende taak begint weer bij nul. Dit kost veel tijd, energie en rekenkracht.

ExGRPO is een nieuwe, slimme methode om deze student te trainen. Het is een manier om ervaringen op te slaan en slim te hergebruiken.


🎒 De Drie Slimme Regels van ExGRPO

De onderzoekers hebben ontdekt dat niet alle ervaringen even waardevol zijn. ExGRPO gebruikt drie slimme regels om te bepalen wat de student moet herhalen:

1. De "Net-Niet-Te-Makkelijk" Regels (Moeilijkheidsgraad)

Stel je voor dat je een sporter traint.

  • Als je alleen maar oefent met een bal die je met één hand kunt vangen (te makkelijk), word je niet sterker.
  • Als je probeert een bal te vangen die met 100 km/u op je afkomt (te moeilijk), val je constant en raak je gefrustreerd.
  • De Gouden Middenweg: Je leert het meest als de bal net iets te snel is, maar je er toch een kans op hebt om hem te vangen.

ExGRPO kijkt naar de vragen die de AI net heeft beantwoord. Als de AI een vraag soms goed en soms fout maakt (ongeveer 50% succes), is dat de perfecte "moeilijkheidszone". Deze vragen worden opgeslagen in een herinneringskast (replay buffer). Vragen die te makkelijk of te moeilijk zijn, worden genegeerd of verwijderd.

2. De "Rustige Gedachten" Regels (Entropie)

Soms geeft de AI het juiste antwoord, maar is de manier waarop hij daar kwam heel rommelig, vol met twijfel en gekke afleidingen.

  • Vergelijking: Stel je hebt twee studenten die hetzelfde examen halen.
    • Student A schrijft een helder, logisch verhaal.
    • Student B schrijft een verhaal vol met "misschien", "misschien", en probeert het antwoord te raden door 100 willekeurige dingen te proberen totdat het klopt.
  • ExGRPO kijkt naar de rust in het denken (wat ze "entropie" noemen). Ze kiezen alleen de antwoorden waar het denken rustig en logisch was. Ze gooien die rommelige, "geluks-antwoorden" weg, omdat die de student alleen maar verwarren.

3. De "Mix van Oud en Nieuw" Regels

In plaats van alleen nieuwe problemen te doen, pakt ExGRPO een handvol oude, goede voorbeelden uit de herinneringskast en mengt ze met de nieuwe oefeningen.

  • Het is alsof een trainer zegt: "Vandaag doen we 50% nieuwe oefeningen, en 50% herhaling van de beste voorbeelden uit de vorige week."
  • Dit zorgt ervoor dat de student niet vergeet wat hij al goed deed, en dat hij sneller leert zonder elke keer opnieuw te hoeven beginnen.

🚀 Wat is het Resultaat?

De onderzoekers hebben deze methode getest op verschillende modellen (van klein tot groot). De resultaten waren indrukwekkend:

  1. Sneller leren: De AI werd beter in wiskunde en logisch denken met minder rekenkracht.
  2. Stabieler: Bij de oudere of zwakkere modellen (zoals de Llama-3.1) faalde de oude methode vaak; de AI raakte in de war en stopte met leren. Met ExGRPO bleef de training stabiel en bleef de AI doorgroeien.
  3. Beter op het onbekende: De AI werd niet alleen beter in de oefeningen die hij al kende, maar kon die vaardigheden ook beter toepassen op nieuwe, vreemde problemen.

🎯 Conclusie in één zin

ExGRPO is als een slimme trainer die niet alleen nieuwe dingen laat oefenen, maar ook weet welke oude oefeningen het meest waardevol zijn om te herhalen, zodat de AI niet blijft steken in de prullenbak, maar echt groeit.

Het paper laat zien dat voor het trainen van slimme AI's, kwaliteit van ervaring belangrijker is dan hoeveelheid van ervaring.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →