DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het paper "DeReason" in eenvoudig Nederlands, met behulp van alledaagse vergelijkingen.

🧠 De Kern: Hoe maak je een slimme AI die echt kan nadenken?

Stel je voor dat je een jonge student wilt opleiden tot een briljant wetenschapper. Je hebt twee manieren om dit te doen:

SFT (Supervised Fine-Tuning): Je geeft de student een stapel antwoorden van een goede leraar en zegt: "Kijk hoe dit eruitziet, leer dit uit je hoofd." Dit is leren door navolging.
RL (Reinforcement Learning): Je laat de student zelf problemen oplossen. Als het antwoord goed is, krijgt hij een puntje (beloning). Als het fout is, krijgt hij niets. De student moet zelf uitproberen wat werkt. Dit is leren door trial-and-error.

Tot nu toe dachten veel mensen dat RL (het zelf proberen) de allerbeste manier was om een AI slim te maken, vooral voor wiskunde. Maar dit paper, genaamd DeReason, zegt: "Wacht even, dat is niet het hele verhaal, vooral niet voor algemene wetenschappen."

🚩 Het Probleem: Waarom "alleen proberen" faalt

De onderzoekers hebben gekeken wat er gebeurt als je een AI (een "leeg" model) direct laat beginnen met alleen proberen (RL) zonder eerst iets te leren.

Het resultaat: Het gaat heel langzaam en is zeer inefficiënt. Het is alsof je iemand in een donker bos laat lopen en hoopt dat hij de weg naar huis vindt door blindelings tegen bomen aan te lopen.
De vergelijking: Als je diezelfde persoon eerst een goede kaart geeft en de route uitlegt (SFT), en daarna laat oefenen, gaat het veel sneller en beter.

Conclusie: Voor algemene kennis (zoals geschiedenis, biologie, natuurkunde) is het eerst "leren uit een boek" (SFT) veel belangrijker dan direct "spelletjes spelen" (RL).

💡 De Oplossing: De "DeReason" Strategie

De auteurs bedachten een slimme manier om de training te verdelen. Ze noemen dit DeReason. Het idee is simpel: Deel de taken in op basis van moeilijkheid.

Stel je voor dat je een grote stapel huiswerk hebt. In plaats van alles door elkaar te gooien, maak je twee stapels:

1. De "Eenvoudige Stapel" (voor SFT / Leren uit een boek)

Wat zit hierin? Vragen die vooral gaan over feiten weten of simpele regels toepassen. Bijvoorbeeld: "Wat is de hoofdstad van Frankrijk?" of "Hoe bereken je de oppervlakte van een vierkant?"
De aanpak: Hier leer je de AI door goede voorbeelden te geven. De AI moet deze feiten en basisregels uit het hoofd leren.
Waarom? Het is voor een AI veel efficiënter om feiten direct te kopiëren dan om 100 keer te proberen om te raden wat de hoofdstad is.

2. De "Moeilijke Stapel" (voor RL / Zelf proberen)

Wat zit hierin? Vragen die echt nadenken vereisen. Vragen waar geen eenduidig antwoord in een boek staat, of waar je een lange, complexe redenering voor moet opbouwen. Bijvoorbeeld: "Ontwerp een experiment om een nieuw medicijn te testen" of een heel lastig wiskundig raadsel.
De aanpak: Hier laat je de AI los. Je geeft geen antwoord, maar laat hem proberen, fouten maken en leren van de beloning als hij het goed heeft.
Waarom? Op deze moeilijke vragen helpt het "uit het hoofd leren" niet meer. De AI moet zijn eigen creatieve oplossingsroutes ontdekken.

🏗️ Hoe werkt het in de praktijk? (De Analogie van de Bouw)

Stel je voor dat je een toren bouwt:

Fase 1: Het Fundament (SFT op makkelijke vragen)
Je bouwt eerst een stevig fundament. Je gebruikt de "eenvoudige" data om de AI alle basisstenen (feiten, formules, regels) te geven. Zonder dit fundament kan de toren niet hoog worden. Als je direct begint met de top (RL), zakt de toren in elkaar.
Fase 2: De Toppen (RL op moeilijke vragen)
Nu het fundament staat, bouw je de toren verder. Maar nu gebruik je alleen de "moeilijke" puzzels. De AI moet nu zelf nadenken over hoe hij de toren hoger en slimmer maakt. Hij leert hierdoor om complexe problemen op te lossen die hij niet uit een boek kan halen.

Wat als je het verkeerd doet?
Als je de moeilijke vragen in het fundament doet (SFT), kan de AI ze vaak niet goed beantwoorden omdat hij ze niet uit het hoofd kan leren.
Als je de makkelijke vragen in de top doet (RL), verspil je tijd; de AI had die feiten al kunnen weten.

🏆 Wat is het resultaat?

De onderzoekers hebben dit getest met verschillende modellen en datasets (zoals wiskunde en algemene wetenschappen).

Resultaat: De AI die eerst de "eenvoudige stapel" leerde (SFT) en daarna de "moeilijke stapel" oefende (RL), was veel slimmer dan:
- AI's die alleen uit boeken leerden.
- AI's die alleen zelf probeerden.
- AI's die een willekeurige mix van beide kregen.

Samenvattend in één zin:

DeReason leert ons dat we een AI niet direct in het diepe moeten gooien, maar eerst een stevig fundament van feiten moeten leggen met makkelijke vragen, en hem daarna pas de moeilijke puzzels geven om zijn eigen denkvermogen te ontwikkelen. Het is de perfecte balans tussen leren van anderen en zelf ontdekken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning", geschreven in het Nederlands.

Probleemstelling

Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR) succesvol is gebleken in het stimuleren van redeneervermogen bij grote taalmodellen (LLM's) in domeinen zoals wiskunde en coderen, blijft de toepassing op bredere wetenschappelijke (STEM) domeinen complex.

De uitdaging: Bestaande onderzoeken hebben vaak gefocust op pure RL-approaches of sequentiële training (eerst SFT, dan RL) zonder de optimale verdeling van trainingsdata tussen deze twee fasen te onderzoeken.
De observatie: De auteurs vinden dat RL direct toegepast op basismodellen (base models) in algemene STEM-domeinen zeer inefficiënt is qua steekproefgrootte en consequent onderpresteert ten opzichte van Supervised Fine-Tuning (SFT) met gemiddelde kwaliteit antwoorden.
De vraag: Hoe moet trainingsdata worden toegewezen tussen de SFT-fase (voor kennisverwerving) en de RL-fase (voor complex redeneren) om de beste prestaties te behalen in algemene redeneertaken?

Methodologie: DeReason

De auteurs stellen DeReason voor, een curriculum-strategie die trainingsdata decoupeert op basis van de moeilijkheidsgraad ("difficulty-aware"). In plaats van algoritmische wijzigingen in SFT of RL, focust deze methode puur op de selectie en verdeling van data.

De drie fasen van de pipeline:

Schatting van Moeilijkheidsgraad (Difficulty Estimation):
- Elke trainingsopdracht krijgt een score van 1 tot 5, geschat door een LLM (specifiek een instruct-model van dezelfde grootte als het beleid, om afhankelijkheid van externe modellen te minimaliseren).
- Factoren zoals het aantal redeneerstappen, benodigde voorkennis en foutkans worden meegenomen.
- Laag scorende data (1-3): Vereist vooral kennisherroeping of toepassing van bekende feiten.
- Hoog scorende data (4-5): Vereist multi-stap afleiding en complex redeneren.
Data Partitionering (Data Decoupling):
- De dataset wordt opgesplitst in twee subsets op basis van een drempelwaarde ( $\tau$ $τ$ ):
  - SFT-subset ( $D_{SFT}$ ): Bevat de "makkelijke" en breed gedekte problemen (lage moeilijkheidsgraad). Hierbij worden referentieantwoorden gegenereerd door een gemiddeld sterk model (bijv. Qwen3-4B-Instruct) voor distillatie.
  - RL-subset ( $D_{RL}$ ): Bevat de "moeilijke" en gefocuste problemen (hoge moeilijkheidsgraad).
Curriculum Training:
- Fase 1 (SFT): Het model wordt getraind op $D_{SFT}$ om fundamentele domeinkennis en basisvaardigheden te verwerven.
- Fase 2 (RL): Het geoptimaliseerde model uit Fase 1 wordt gebruikt als startpunt voor RL (met GRPO - Group Relative Policy Optimization) op $D_{RL}$ . Hier leert het model complexe redeneerpaden te verkennen die verder gaan dan wat imitatie alleen kan bieden.

Belangrijkste Bijdragen

Systematische Analyse van SFT vs. RL: Het paper toont aan dat voor kleine modellen in algemene STEM-domeinen SFT een onmisbare "cold-start" en distillatiemechanisme is dat pure RL aanzienlijk overtreft. RL is alleen effectief als het wordt ingezet op een model dat al een sterke basis heeft.
DeReason Curriculum: Een nieuwe strategie die aantoont dat het partitioneren van data op moeilijkheidsgraad (SFT op makkelijke data, gevolgd door RL op moeilijke data) superieur is aan willekeurige splitsing, puur SFT of puur RL.
Gedetailleerde Gedragsanalyse: De auteurs analyseren de trainingsdynamiek, waaronder:
- Policy Entropie: Hoe SFT de verdeling versmalt en RL deze verder verfijnt.
- Reactielengte: Hoe RL reacties comprimeert en de kwaliteit-versus-lengte hiërarchie behoudt.
- Beloningsoptimalisatie: Het verschil in leercurve tussen starten vanaf een basismodel versus een SFT-gedopt model.

Resultaten

De methode is getest op twee datasets (WebInstruct-Verified en Webscale-RL) en geëvalueerd op diverse benchmarks, waaronder MMLU-Pro, GPQA-Diamond, SuperGPQA en BBEH.

Algemene Prestaties: De "SFT op makkelijke data + RL op moeilijke data" aanpak presteert consistent beter dan alle baselines (puur SFT, puur RL, of willekeurige splitsing) op 4B-parameter modellen.
Specifieke Observaties:
- Op makkelijke benchmarks (zoals MMLU-Pro) is het verschil met puur SFT soms klein of zelfs negatief (afhankelijk van de dataset), wat aangeeft dat SFT hier al sterk is.
- Op moeilijke benchmarks die zwaar leunen op redeneren boven kennisherroeping (zoals BBEH en GPQA-Diamond), toont DeReason een duidelijke en significante verbetering ten opzichte van andere methoden.
- In wiskundetaakken (AIME24, AIME25, MATH500) volgt het dezelfde trend: DeReason behaalt de beste resultaten.
Vergelijking: De modellen presteren beter dan eerdere modellen van vergelijkbare schaal en benaderen zelfs de prestaties van veel grotere modellen in specifieke taken.

Significantie en Conclusie

Het paper biedt een cruciaal inzicht in de post-training van LLM's voor algemeen redeneren:

Complementaire Rollen: SFT en RL hebben verschillende, complementaire sterke punten. SFT is superieur voor het efficiënt verwerven van domeinkennis (imitatie), terwijl RL effectief is voor het overstijgen van de supervisie op complexe, moeilijk te verifiëren problemen.
Data-Strategie: De sleutel tot succes ligt niet in het verbeteren van de RL-algoritmen zelf, maar in het principieel toewijzen van data aan de juiste trainingsfase.
Generalisatie: Omdat DeReason werkt op het niveau van data-selectie en niet afhankelijk is van specifieke algoritmen, is het een "orthogonale" verbetering die direct kan worden toegepast in bestaande trainingspipelines en toolkits.

Kortom, DeReason bewijst dat een goed ontworpen curriculum dat data sorteert op "redeneerintensiteit", de prestaties van LLM's in complexe STEM-domeinen aanzienlijk kan verbeteren ten opzichte van huidige state-of-the-art methoden.