Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een kind wilt leren wiskunde. Je zou het kind niet direct een complexe calculus-opdracht geven, toch? Je begint met tellen, dan optellen, dan vermenigvuldigen, en pas daarna ga je naar de moeilijke dingen. Als je het kind direct de zware opgave geeft, raakt het in paniek, leert het niets, en geeft het misschien op.

Dit is precies het probleem dat dit paper, getiteld "Curriculum Reinforcement Learning: From Easy to Hard Tasks Improves LLM Reasoning" (of kortweg E2H Reasoner), probeert op te lossen voor kunstmatige intelligentie (AI).

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Grote Sprong"

Stel je een AI-model voor als een beginnende atleet. Recentere modellen (zoals DeepSeek-R1) zijn getraind met een methode genaamd Reinforcement Learning (RL). Dit werkt als volgt: de AI probeert een vraag te beantwoorden. Als het goed is, krijgt het een "snoepje" (beloning). Als het fout is, krijgt het niets.

Het probleem is dat bij heel moeilijke vragen (zoals complexe wiskunde of logische puzzels), de AI bijna nooit het juiste antwoord vindt. Het krijgt dus bijna nooit een "snoepje".

De metafoor: Het is alsof je een kind in een donkere kamer zet en zegt: "Vind de schat!" Als het kind de schat nooit vindt, leert het niets. Het blijft rondlopen in het donker. Dit noemen de auteurs het probleem van spaarzame beloningen.

2. De Oplossing: Een Leerplan (Curriculum)

De auteurs zeggen: "Wacht even, laten we het kind niet in het donker zetten. Laten we het eerst de deur laten vinden, dan de kamer, dan het huis, en pas dan de schat."

Ze introduceren E2H Reasoner (Easy-to-Hard Reasoner).

Hoe werkt het? Ze nemen de dataset met vragen en splitsen deze op in niveaus:
- Triviale vragen (heel makkelijk).
- Eenvoudige vragen.
- Moeilijke vragen.
- Zeer moeilijke vragen.
De AI begint met de triviale vragen. Omdat die makkelijk zijn, krijgt de AI vaak een beloning. Het bouwt vertrouwen op en leert de basisregels.
Vervolgens worden de vragen langzaam moeilijker. De AI past wat het op de makkelijke vragen heeft geleerd toe op de moeilijkere.

3. Het Gevaren: Te lang vastzitten aan het makkelijke

Er is een addertje onder het gras. Als je de AI te lang op de makkelijke vragen houdt, wordt het lui.

De metafoor: Stel je voor dat je een speler in een computerspel alleen maar laat oefenen op het laagste niveau. Hij wordt daar een meester in, maar zodra hij naar het echte spel gaat, faalt hij omdat hij geen echte uitdagingen heeft gehad. In de AI-wereld noemen ze dit "reward hacking": de AI vindt een snelle, domme oplossing voor de makkelijke vraag in plaats van echt na te denken.

De auteurs ontdekten dat je de makkelijke vragen dus moet verdwijnen (fading out) zodra de AI ze beheerst. Je moet de AI dwingen om de moeilijke weg te gaan, anders leert hij niet echt redeneren.

4. De Slimme Scheduling (Het Rooster)

Hoe regel je dit precies? Ze hebben twee slimme manieren bedacht om te beslissen welke vraag de AI krijgt:

De Cosine-methode (E2H-C): Dit is als een zachte glooiende heuvel. Je begint heel laag (makkelijk) en klimt langzaam omhoog. Dit werkt goed als de AI op alle niveaus redelijk goed presteert.
De Gaussische-methode (E2H-G): Dit is als een steile berg met een lange startbaan. Je geeft de AI even een stevige duw met makkelijke vragen om te starten, maar dan daalt de kans op makkelijke vragen heel snel af, zodat de AI snel de zware klus moet klaren. Dit werkt beter bij taken waar de AI snel vastloopt (zoals complexe planning).

5. Wat hebben ze bewezen?

De auteurs hebben niet alleen gekeken of het werkt, maar ook wiskundig bewezen dat het slim is.

Ze zeggen: "Als je een leerplan volgt, heb je minder voorbeelden nodig om iets te leren dan als je direct de moeilijkste vraag probeert."
De analogie: Als je wilt leren zwemmen, is het sneller en veiliger om eerst in het ondiepe water te oefenen en stap voor stap dieper te gaan, dan om direct in de diepe zee te springen. Je leert sneller en maakt minder fouten.

6. De Resultaten

Ze hebben dit getest op verschillende AI-modellen (zoals Qwen en LLaMA) met taken zoals:

Blocksworld: Stapels blokken verplaatsen (logica).
Countdown: Getallen combineren om een doelgetal te bereiken (wiskunde).
MATH: Wiskundeproblemen oplossen.

Het resultaat? De AI's die met dit "leerplan" (E2H) werden getraind, waren veel beter in het oplossen van moeilijke problemen dan AI's die direct op de moeilijke problemen werden getraind of die willekeurig gemengde vragen kregen. Zelfs kleine AI-modellen konden zo leren redeneren over taken die ze eerst niet eens snapten.

Samenvatting in één zin

In plaats van een AI te laten worstelen met de zwaarste problemen, geven we het eerst een stevige basis met makkelijke taken en duwen we het daarna langzaam de moeilijke wereld in, zodat het echt leert nadenken in plaats van alleen maar te gokken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Large Language Models (LLMs) redeneerfähigheden hebben getoond in taken zoals wiskunde en codering, blijft het concept van "redeneren" vaag. Vaak wordt dit verward met oppervlakkig patroonherkennen in plaats van het extraheren van principes en toepassen op nieuwe situaties (generalisatie).

Bestaande methoden voor post-training, zoals Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL), hebben beperkingen:

SFT: Neigt tot overfitting op oppervlakkige patronen en mist het vermogen om onderliggende probleemoplossingsstrategieën te leren.
RL (zonder curriculum): RL werkt goed op taken waar het model al een redelijke zero-shot prestatie heeft. Echter, voor intrinsiek moeilijke taken (waar het model in zero-shot faalt) is RL inefficiënt. Dit komt door twee hoofdfactoren:
- Distributie-kloof: Een grote verschuiving tussen de pre-training data en de doeltaak leidt tot lage nauwkeurigheid.
- Spare Rewards: Beloningen worden alleen gegeven voor het juiste eindantwoord. Bij moeilijke taken zijn deze signalen zeer schaars, wat het leren vertraagt of onmogelijk maakt.

Bestaande curriculum learning-aanpakken (leren van makkelijk naar moeilijk) zijn vaak te rigide (vast aantal iteraties per taak) en leiden tot vergeten van eerdere taken of overfitting op makkelijke taken.

Methodologie: E2H Reasoner

De auteurs introduceren E2H Reasoner (Easy-to-Hard), een Curriculum Reinforcement Learning (CRL) methode die taken probabilistisch scheduleert van makkelijk naar moeilijk.

1. Taak Decompositie:
De trainingsdata wordt opgesplitst in vier moeilijkheidsniveaus: Trivial, Easy, Medium en Hard.

Voor datasets met menselijke labels (bijv. Blocksworld, Countdown, MATH) wordt gebruikgemaakt van bestaande annotaties (zoals planlengte of aantal operatoren).
Voor datasets zonder labels (bijv. GSM8K, AQuA) wordt de moeilijkheid geschat op basis van de foutenratio van het basismodel via Chain-of-Thought (CoT) prompting.

2. Training Schedulers (Scheduleerstrategieën):
Om het probleem van vergeten (task forgetting) en overfitting op makkelijke taken aan te pakken, stellen de auteurs twee geavanceerde schedulers voor:

Cosine Scheduling (E2H-C): Een niet-parametrische aanpak die de sampling-kans van taken volgt een cosinusfunctie. Dit zorgt voor een geleidelijke verschuiving van focus van makkelijke naar moeilijke taken. Dit werkt goed voor taken waar het model al redelijk presteert op alle niveaus.
Gaussian Scheduling (E2H-G): Een flexibelere aanpak gebaseerd op een Gaussische mixtuur. Hierbij worden hyperparameters ( $\sigma$ $σ$ en $\beta$ $β$ ) gebruikt om de snelheid van de overgang en de concentratie van de sampling te controleren.
- Voordeel: Het kan de kans op "triviale" taken snel laten afnemen om overfitting te voorkomen, terwijl het toch voldoende blootstelling biedt voor initiële leerstappen. Dit is cruciaal voor taken met zeer schaarse beloningen (zoals Blocksworld).

3. Theoretisch Kader:
De methode wordt geanalyseerd binnen het kader van Approximate Policy Iteration (API). De auteurs bewijzen convergentiegaranties en leiden een finite-sample complexiteit af.

Kerninzicht: CRL vereist minder totale samples dan direct leren op de moeilijke taak, mits het curriculum goed is ontworpen (interpolatie tussen distributies) en de foutmarges in eerdere stadia groter zijn toegestaan.

Belangrijkste Resultaten

De auteurs evalueren E2H Reasoner op diverse benchmarks (Blocksworld, Countdown, MATH, GSM8K, AQuA) met modellen zoals Qwen 1.5B en LLaMA 3.2 3B.

Superieure Prestaties: E2H Reasoner bereikt state-of-the-art resultaten, vooral op moeilijke (Hard) en out-of-distribution (OOD) taken. Het slaagt erin taken op te lossen die het basismodel in zero-shot volledig faalde.
Effectiviteit van Decompositie: Het toevoegen van triviale en makkelijke voorbeelden helpt het model om kernprincipes te leren, wat essentieel is voor generalisatie naar complexere taken.
Vergelijking met Baselines:
- Tegenover Direct RL: Leren direct op moeilijke taken leidt tot slechte prestaties.
- Tegenover Traditioneel Curriculum (CL): Statische overgangen leiden vaak tot vergeten van eerdere vaardigheden.
- Tegenover Adaptive Baselines (Self-Evolve): E2H presteert consistenter en vereist minder fijnafstemming van hyperparameters.
Combinatie met DAPO: De combinatie van E2H met DAPO (een geavanceerde RL-optimizer) resulteert in de beste prestaties, omdat E2H de moeilijkheidsgraad van de batches optimaliseert voordat DAPO deze verwerkt.
Sample Efficiency: Empirisch en theoretisch wordt aangetoond dat CRL aanzienlijk minder trainingsdata nodig heeft om een bepaald prestatieniveau te bereiken vergeleken met methoden die alleen op moeilijke data trainen.

Bijdragen en Significantie

De belangrijkste bijdragen van dit werk zijn:

Een Nieuwe Paradigma voor LLM Redeneren: Het paper stelt dat redeneren niet alleen een kwestie is van grotere modellen of meer data, maar van het juiste lerenpad. Het bewijst dat kleine modellen (1.5B - 3B parameters) complexe redeneertaken kunnen leren als ze via een goed gestructureerd curriculum worden getraind.
E2H Reasoner Framework: Een praktische, schaalbare methode die probabilistische schedulers (Cosine en Gaussian) gebruikt om het compromis tussen het leren van basisprincipes en het voorkomen van overfitting op te lossen.
Theoretische Onderbouwing: Voor het eerst worden convergentiegaranties en sample-complexiteitsgrenzen voor CRL in de context van LLMs afgeleid, wat wiskundig onderbouwt waarom "van makkelijk naar moeilijk" werken efficiënter is dan direct leren.
Praktische Toepasbaarheid: De methode werkt ook zonder menselijke moeilijkheidslabels door gebruik te maken van model-geschatte foutenratio's, wat het toepasbaar maakt op een breed scala aan datasets.

Conclusie:
E2H Reasoner biedt een robuuste, theoretisch onderbouwde en empirisch bewezen oplossing om de redeneerfähigheden van LLMs te verbeteren. Het benadrukt dat het hoe (de curriculum-strategie) minstens zo belangrijk is als het wat (de data) bij het trainen van modellen voor complexe redeneertaken.

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

1. Het Probleem: De "Grote Sprong"

2. De Oplossing: Een Leerplan (Curriculum)

3. Het Gevaren: Te lang vastzitten aan het makkelijke

4. De Slimme Scheduling (Het Rooster)

5. Wat hebben ze bewezen?

6. De Resultaten

Samenvatting in één zin

Probleemstelling

Methodologie: E2H Reasoner

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context