Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Dit paper introduceert de E2H Reasoner, een methode die de redeneercapaciteiten van taalmodellen verbetert door middel van versterkingsleer met een curriculum dat taken van makkelijk naar moeilijk schakelt, wat theoretisch en empirisch bewezen is te leiden tot betere prestaties en minder overfitting dan directe training op moeilijke taken.

Shubham Parashar, Shurui Gui, Xiner Li, Hongyi Ling, Sushil Vemuri, Blake Olson, Eric Li, Yu Zhang, James Caverlee, Dileep Kalathil, Shuiwang Ji

Gepubliceerd 2026-03-17
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kind wilt leren wiskunde. Je zou het kind niet direct een complexe calculus-opdracht geven, toch? Je begint met tellen, dan optellen, dan vermenigvuldigen, en pas daarna ga je naar de moeilijke dingen. Als je het kind direct de zware opgave geeft, raakt het in paniek, leert het niets, en geeft het misschien op.

Dit is precies het probleem dat dit paper, getiteld "Curriculum Reinforcement Learning: From Easy to Hard Tasks Improves LLM Reasoning" (of kortweg E2H Reasoner), probeert op te lossen voor kunstmatige intelligentie (AI).

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Grote Sprong"

Stel je een AI-model voor als een beginnende atleet. Recentere modellen (zoals DeepSeek-R1) zijn getraind met een methode genaamd Reinforcement Learning (RL). Dit werkt als volgt: de AI probeert een vraag te beantwoorden. Als het goed is, krijgt het een "snoepje" (beloning). Als het fout is, krijgt het niets.

Het probleem is dat bij heel moeilijke vragen (zoals complexe wiskunde of logische puzzels), de AI bijna nooit het juiste antwoord vindt. Het krijgt dus bijna nooit een "snoepje".

  • De metafoor: Het is alsof je een kind in een donkere kamer zet en zegt: "Vind de schat!" Als het kind de schat nooit vindt, leert het niets. Het blijft rondlopen in het donker. Dit noemen de auteurs het probleem van spaarzame beloningen.

2. De Oplossing: Een Leerplan (Curriculum)

De auteurs zeggen: "Wacht even, laten we het kind niet in het donker zetten. Laten we het eerst de deur laten vinden, dan de kamer, dan het huis, en pas dan de schat."

Ze introduceren E2H Reasoner (Easy-to-Hard Reasoner).

  • Hoe werkt het? Ze nemen de dataset met vragen en splitsen deze op in niveaus:
    • Triviale vragen (heel makkelijk).
    • Eenvoudige vragen.
    • Moeilijke vragen.
    • Zeer moeilijke vragen.
  • De AI begint met de triviale vragen. Omdat die makkelijk zijn, krijgt de AI vaak een beloning. Het bouwt vertrouwen op en leert de basisregels.
  • Vervolgens worden de vragen langzaam moeilijker. De AI past wat het op de makkelijke vragen heeft geleerd toe op de moeilijkere.

3. Het Gevaren: Te lang vastzitten aan het makkelijke

Er is een addertje onder het gras. Als je de AI te lang op de makkelijke vragen houdt, wordt het lui.

  • De metafoor: Stel je voor dat je een speler in een computerspel alleen maar laat oefenen op het laagste niveau. Hij wordt daar een meester in, maar zodra hij naar het echte spel gaat, faalt hij omdat hij geen echte uitdagingen heeft gehad. In de AI-wereld noemen ze dit "reward hacking": de AI vindt een snelle, domme oplossing voor de makkelijke vraag in plaats van echt na te denken.

De auteurs ontdekten dat je de makkelijke vragen dus moet verdwijnen (fading out) zodra de AI ze beheerst. Je moet de AI dwingen om de moeilijke weg te gaan, anders leert hij niet echt redeneren.

4. De Slimme Scheduling (Het Rooster)

Hoe regel je dit precies? Ze hebben twee slimme manieren bedacht om te beslissen welke vraag de AI krijgt:

  • De Cosine-methode (E2H-C): Dit is als een zachte glooiende heuvel. Je begint heel laag (makkelijk) en klimt langzaam omhoog. Dit werkt goed als de AI op alle niveaus redelijk goed presteert.
  • De Gaussische-methode (E2H-G): Dit is als een steile berg met een lange startbaan. Je geeft de AI even een stevige duw met makkelijke vragen om te starten, maar dan daalt de kans op makkelijke vragen heel snel af, zodat de AI snel de zware klus moet klaren. Dit werkt beter bij taken waar de AI snel vastloopt (zoals complexe planning).

5. Wat hebben ze bewezen?

De auteurs hebben niet alleen gekeken of het werkt, maar ook wiskundig bewezen dat het slim is.

  • Ze zeggen: "Als je een leerplan volgt, heb je minder voorbeelden nodig om iets te leren dan als je direct de moeilijkste vraag probeert."
  • De analogie: Als je wilt leren zwemmen, is het sneller en veiliger om eerst in het ondiepe water te oefenen en stap voor stap dieper te gaan, dan om direct in de diepe zee te springen. Je leert sneller en maakt minder fouten.

6. De Resultaten

Ze hebben dit getest op verschillende AI-modellen (zoals Qwen en LLaMA) met taken zoals:

  • Blocksworld: Stapels blokken verplaatsen (logica).
  • Countdown: Getallen combineren om een doelgetal te bereiken (wiskunde).
  • MATH: Wiskundeproblemen oplossen.

Het resultaat? De AI's die met dit "leerplan" (E2H) werden getraind, waren veel beter in het oplossen van moeilijke problemen dan AI's die direct op de moeilijke problemen werden getraind of die willekeurig gemengde vragen kregen. Zelfs kleine AI-modellen konden zo leren redeneren over taken die ze eerst niet eens snapten.

Samenvatting in één zin

In plaats van een AI te laten worstelen met de zwaarste problemen, geven we het eerst een stevige basis met makkelijke taken en duwen we het daarna langzaam de moeilijke wereld in, zodat het echt leert nadenken in plaats van alleen maar te gokken.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →