Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Each language version is independently generated for its own context, not a direct translation.

🧠 De Dilemma van de Slimme Student: ReLIFT

Stel je voor dat je een zeer intelligente student hebt die al veel wiskunde kent, maar nog niet alles. Je wilt hem zo slim mogelijk maken om de allerzwaarste wiskundepuzzels op te lossen. Je hebt twee manieren om hem te trainen:

De "Probeer-het-zelf" Methode (Reinforcement Learning - RL):
Je geeft de student een probleem. Hij probeert het op te lossen. Als hij het goed heeft, krijgt hij een sterretje (beloning). Als hij het fout heeft, krijgt hij geen sterretje en moet het opnieuw proberen.
- Het voordeel: Hij wordt heel goed in de dingen die hij al een beetje begrijpt. Hij leert sneller en efficiënter.
- Het nadeel: Als hij een probleem tegenkomt dat hij helemaal niet begrijpt, blijft hij steken. Hij kan niet "leren" wat hij niet al kent. Hij blijft rondjes draaien in zijn eigen kennis. Het is alsof hij in een echo-kamer zit: hij hoort alleen zijn eigen gedachten weerkaatst.
De "Voorbeeldboek" Methode (Supervised Fine-Tuning - SFT):
Je geeft de student een boek met de perfecte oplossingen voor moeilijke problemen. Hij leert deze uit het hoofd en nabootsen.
- Het voordeel: Hij leert direct nieuwe dingen die hij nog nooit wist. Hij kan de allerzwaarste puzzels oplossen die hij eerst niet snapte.
- Het nadeel: Hij wordt soms te star. Hij leert de antwoorden uit het hoofd in plaats van te denken. Als hij een nieuw soort probleem ziet (een "uit de hand" situatie), raakt hij in de war. Ook kost het veel tijd om goede voorbeeldboeken te schrijven.

🚀 De Oplossing: ReLIFT (De Mix-Master)

De onderzoekers van dit paper (van de Peking University) hebben bedacht: "Waarom kiezen we? Laten we het beste van beide werelden combineren!" Ze noemen hun nieuwe methode ReLIFT.

Hoe werkt ReLIFT? (De Analogie van de Sportcoach)

Stel je een sportcoach voor die een atleet traint:

De Training (RL): De atleet doet de hele dag aan zijn eigen training. Hij rent, springt en doet oefeningen. Hij wordt steeds beter in wat hij al kan.
Het Moment van Stilte (De Harde Vraag): Op een gegeven moment komt de atleet een oefening tegen die hij helemaal niet kan. Hij valt steeds om. Hij raakt gefrustreerd.
De Interventie (Online Fine-Tuning): In plaats van de atleet te laten blijven vallen, stopt de coach de training even. De coach pakt een top-expert (een andere atleet of een mens) en vraagt: "Hoe lost jij dit specifieke, onmogelijke probleem op?"
De Les: De coach schrijft de perfecte oplossing op en geeft deze aan de atleet. De atleet leert deze ene, specifieke oplossing direct.
Verder Trainen: De atleet gaat weer trainen, maar nu met die nieuwe kennis in zijn hoofd. Hij kan de volgende keer dat hij dat probleem tegenkomt, het oplossen.

Het geheim van ReLIFT:
Ze doen dit niet zomaar. Ze laten de atleet eerst zelf proberen (RL). Alleen als hij echt vastloopt op de zwaarste vragen, halen ze de "voorbeelden" (de antwoorden van de expert) erbij. Ze vullen een "buffer" (een stapel met moeilijke vragen) en trainen de atleet hier kort op, voordat ze weer verder gaan met zelf trainen.

💡 Waarom is dit zo goed?

Efficiëntie: Je hoeft niet duizenden boeken te schrijven (zoals bij SFT). Je haalt alleen de antwoorden op voor de vragen die de student echt niet kan.
Slimmer: De student leert niet alleen zijn eigen fouten te corrigeren (RL), maar leert ook echt nieuwe dingen (SFT).
Korter: De antwoorden die de student geeft worden korter en krachtiger. Hij hoeft niet meer te "mogen" of te gissen; hij weet precies wat hij moet doen.

🏆 De Resultaten

In hun experimenten hebben ze getest met verschillende wiskundetoetsen (zoals de Olympiade).

De oude methoden (alleen RL of alleen SFT) waren goed, maar niet perfect.
ReLIFT won het van iedereen. Ze werden de beste in het oplossen van de moeilijkste wiskundeproblemen, gebruikten minder computerkracht en hadden minder "voorbeelden" nodig dan de concurrentie.

Kortom:
ReLIFT is als een slimme coach die weet wanneer hij moet laten oefenen en wanneer hij moet ingrijpen met een perfecte les. Zo leert de computer (het AI-model) niet alleen wat hij al weet, maar breekt hij ook door de grenzen van zijn eigen kennis heen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerd technisch overzicht van het paper "Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions", gepresenteerd op ICLR 2026.

Probleemstelling

Recente doorbraken in redeneervermogen van Large Language Models (LLM's) zijn grotendeels toe te schrijven aan Reinforcement Learning met Verifieerbare Beloningen (RLVR). Hoewel RLVR succesvol is in het verbeteren van bestaande vaardigheden, blijkt het beperkt te zijn in het leren van nieuwe kennis of redeneermethoden die buiten de oorspronkelijke capaciteiten van het basismodel vallen.

Beperkingen van RL: RL werkt vaak "on-policy", wat betekent dat het leert van de eigen gegenereerde antwoorden. Dit leidt tot een versterking van bestaande patronen en een gebrek aan exploratie. Het model converteert vaak naar smalle gedragspatronen en stagneert op complexe taken die het nog niet kan oplossen.
Beperkingen van SFT: Supervised Fine-Tuning (SFT) kan wel nieuwe kennis introduceren via hoogwaardige demonstraties, maar vereist enorme hoeveelheden dure data en neigt tot overpampering (memoriseren), wat de generalisatie naar out-of-distribution (OOD) scenario's belemmert.
De Kernvraag: Hoe kunnen RL en SFT effectief worden gecombineerd om de sterke punten van beide te benutten: RL voor het verfijnen van bestaande vaardigheden en SFT voor het overwinnen van de grenzen van het model op de moeilijkste vragen?

Methodologie: ReLIFT

De auteurs introduceren ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning), een trainingsstrategie die dynamisch wisselt tussen RL en gerichte SFT op basis van de moeilijkheidsgraad van de vragen.

1. Analyse van Trainingsdynamiek:
De auteurs analyseerden eerst hoe RL en SFT presteren op vragen met verschillende moeilijkheidsniveaus (Eenvoudig, Gemiddeld, Moeilijk, Zeer Moeilijk):

RL: Presteert uitstekend op vragen binnen het bereik van het model (Eenvoudig tot Moeilijk) en verbetert de nauwkeurigheid zonder de antwoordlengte onnodig te verlengen.
SFT: Is cruciaal voor de "Zeer Moeilijkste" vragen (waar het basismodel 0% nauwkeurigheid heeft). SFT kan echter de prestaties op eenvoudigere vragen verslechteren en leidt vaak tot langere, minder efficiënte antwoorden.

2. Het ReLIFT Framework:
ReLIFT combineert deze inzichten in een adaptief proces:

RL-fase met Data Collectie: Het model wordt voornamelijk getraind met RL (gebaseerd op GRPO). Tijdens de "rollout" worden vragen geïdentificeerd waar het model faalt (accuracy = 0).
Online Data Generatie: Voor deze "hardest questions" worden hoogwaardige Chain-of-Thought (CoT) oplossingen gegenereerd (bijv. door een sterker model zoals DeepSeek-R1 of menselijke annotatoren). Onjuiste antwoorden worden gefilterd.
Buffering: Deze hoogwaardige (vraag, oplossing)-paren worden opgeslagen in een SFT-buffer.
Interleaved Fine-Tuning: Zodra de buffer een vooraf bepaald aantal voorbeelden ( $M$ ) bevat, wordt één stap SFT uitgevoerd op deze specifieke moeilijke vragen.
Entropy Regularisatie: Om te voorkomen dat de SFT-stap het exploratievermogen van het model te veel beperkt, wordt een entropie-reguleringsterm toegevoegd aan de verliesfunctie tijdens de fine-tuning.

3. Adaptieve Frequentie:
In de vroege fasen van training, wanneer het model veel fouten maakt, wordt vaker gefine-tuned om effectieve redeneerpatronen snel te leren. Naarmate het model verbetert, wordt de focus verschoven naar RL om bestaande vaardigheden verder te optimaliseren.

Belangrijkste Bijdragen

Systematische Analyse: Een empirische demonstratie dat RL en SFT complementaire rollen hebben: RL verfijnt bestaande kennis, terwijl SFT essentieel is voor het verwerven van nieuwe kennis op de moeilijkste problemen.
ReLIFT Framework: Een nieuw trainingsparadigma dat online fine-tuning interleaveert met RL, specifiek gericht op de "hardest questions" die tijdens het trainingsproces worden geïdentificeerd.
Efficiëntie en Schaalbaarheid: ReLIFT vereist aanzienlijk minder demonstratiedata en GPU-tijd dan bestaande hybride methoden, terwijl het toch superieure resultaten behaalt.

Resultaten

De auteurs evalueerden ReLIFT op zes benchmarks (vijf wiskundige redeneringsbenchmarks en één OOD-benchmark) met het Qwen2.5-Math-7B model als basis.

State-of-the-Art Prestaties: ReLIFT behaalde een gemiddelde nauwkeurigheid van 52.6%, wat een nieuw record is en alle bestaande RLVR-methoden (zoals SimpleRL-Zero, OpenReasoner-Zero) en hybride methoden (zoals LUFFY, SFT gevolgd door RL) verslaat.
Efficiëntie:
- Data: ReLIFT gebruikt slechts 8.640 demonstraties, vergeleken met 46.000 voor veel concurrenten.
- Rekenkracht: Het vereist 52 GPU-uren (8x8), wat aanzienlijk lager is dan methoden zoals RL w/ SFT loss (113,5 uur) of SFT gevolgd door RL (57-63 uur).
Kwaliteit van Antwoorden: ReLIFT genereert aanzienlijk beknoptere oplossingen (gemiddeld 3502 tokens) vergeleken met pure SFT (5533 tokens), terwijl de nauwkeurigheid hoger blijft.
Generalisatie: Het model toont superieure prestaties op Out-of-Distribution (OOD) taken (zoals MMLU-Pro), wat aantoont dat het niet alleen de trainingsdata heeft gememoriseerd.
Robustheid: De methode werkt consistent goed op kleinere modellen (Qwen2.5-Math-1.5B) en andere architecturen (Llama-3.1-8B).

Significantie

Dit paper biedt een fundamenteel inzicht in de beperkingen van puur RL voor redenering en stelt een praktische, schaalbare oplossing voor.

Paradigmaverschuiving: Het toont aan dat het niet nodig is om enorme datasets met CoT-demonstraties te verzamelen om een model te trainen. In plaats daarvan kan men dynamisch de zwakke punten van het model identificeren en deze gericht aanvullen.
Resource-efficiëntie: Door de afhankelijkheid van dure data en rekenkracht te verminderen, maakt ReLIFT het mogelijk om krachtige redenerende modellen te trainen met beperktere middelen.
Toekomstperspectief: De methode opent de deur voor een nieuwe generatie LLM's die niet alleen beter worden in wat ze al weten, maar ook daadwerkelijk nieuwe redeneerstrategieën kunnen leren, waardoor de cognitieve grenzen van het basismodel worden verlegd.

Samenvattend bewijst ReLIFT dat een slimme combinatie van exploratie (RL) en gerichte kennisinbreng (SFT) op de moeilijkste momenten de sleutel is tot het creëren van superieure redenerende AI-systemen.

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

🧠 De Dilemma van de Slimme Student: ReLIFT

🚀 De Oplossing: ReLIFT (De Mix-Master)

💡 Waarom is dit zo goed?

🏆 De Resultaten

Probleemstelling

Methodologie: ReLIFT

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA