Learn Hard Problems During RL with Reference Guided Fine-tuning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nog jonge student wiskunde hebt. Je wilt deze student trainen om de allerlastigste wiskundeproblemen op te lossen, zoals die op de Olympiade.

Deze paper beschrijft een nieuwe manier om die student te trainen, genaamd ReGFT (Reference-Guided Fine-Tuning). Hier is hoe het werkt, vertaald naar alledaags taal met een paar leuke vergelijkingen.

Het Probleem: De "Dode Zone" van de Leerling

Stel je voor dat je de student een heel moeilijk raadsel geeft. De student probeert het, maar komt er niet uit. Hij probeert het nog eens, en nog eens. Uiteindelijk geeft hij op.

In de wereld van kunstmatige intelligentie (AI) noemen we dit beloningskrapte (reward sparsity).

De AI probeert een oplossing te bedenken.
Als het antwoord fout is, krijgt hij geen "prik" of beloning.
Als het antwoord goed is, krijgt hij een grote beloning.

Het probleem is: als de AI het probleem niet kan oplossen, krijgt hij nooit een beloning. Het is alsof je een speler in een videospel laat spelen, maar hij krijgt nooit punten omdat hij de eerste level niet haalt. Hij leert niets, hij raakt gefrustreerd en stopt. Dit is wat er gebeurt bij traditionele training op moeilijke problemen.

De Oude Oplossing: Het Antwoordenboekje (SFT)

Een simpele oplossing zou zijn: "Geef de student gewoon het antwoord uit het boekje."
In de AI-wereld noemen we dit Supervised Fine-Tuning. Je laat de AI het menselijke antwoord kopiëren.

Waarom dit faalt:
Stel je voor dat je de student een oplossing laat kopiëren die in een heel andere taal is geschreven dan hij spreekt. Hij kan het woord voor woord overnemen, maar hij begrijpt niet waarom het zo werkt. Als je hem later een vergelijkbaar, maar net iets anders probleem geeft, faalt hij weer. Hij heeft het antwoord uit het hoofd geleerd, maar niet de logica.

De Nieuwe Oplossing: ReGFT (De "Gids")

De auteurs van deze paper komen met een slimme truc: ReGFT.

Stel je voor dat je de student niet het hele antwoord geeft, maar alleen de eerste paar zinnen van de oplossing. Je zegt:

"Kijk, hier is hoe we beginnen. We gebruiken deze formule. Maar nu moet jij zelf de rest van de redenering bedenken en het antwoord vinden."

Dit is de kern van ReGFT:

De Gids: Je gebruikt het menselijke antwoord als een hint (een gids).
Eigen Redenering: De AI moet de rest van de weg zelf vinden. Hij mag niet kopiëren; hij moet het zelf uitzoeken, maar met de richting die de gids aangeeft.
De Resultaat: Omdat de AI zelf de weg heeft gevonden (met een beetje hulp), past de oplossing beter bij zijn eigen manier van denken. Hij leert de logica, niet alleen het antwoord.

Waarom werkt dit zo goed?

Stel je voor dat je een mountainbikefiets traint om een steile berg op te rijden.

Zonder training (Raw): De fiets probeert het, valt, en leert niets omdat hij nooit bovenaan komt.
Met kopiëren (SFT): Je sleept de fiets met een kraan naar boven. Hij is boven, maar hij heeft niet geleerd hoe hij zelf omhoog moet komen.
Met ReGFT: Je geeft de fiets een duw op het begin van de helling (de hint) en zegt: "Ga maar zelf verder!" De fiets leert hoe hij de helling op moet pedalen.

Door deze methode te gebruiken, leert de AI op moeilijke problemen die hij eerst niet kon oplossen. Hij krijgt nu wel "beloningen" (hij komt bovenaan), en dat maakt de volgende training (Reinforcement Learning) veel effectiever.

De Resultaten in het Kort

De onderzoekers hebben dit getest op drie zeer moeilijke wiskundetoetsen (AIME 2024, 2025 en Beyond-AIME).

AI-modellen die eerst ReGFT kregen, leerden sneller.
Ze werden beter in het oplossen van problemen die ze eerst niet konden.
Zelfs als je ze meer tijd gaf om te "nadenken" (meer pogingen doen), bleven ze beter presteren dan de modellen die gewoon het antwoordboekje hadden gekopieerd.

Conclusie

Kortom: ReGFT is als het geven van een kaart en een kompas aan een reiziger in plaats van hem gewoon in een taxi naar de bestemming te zetten. De reiziger leert de weg zelf, wordt sterker, en kan daarna veel lastigere routes afleggen zonder hulp.

Deze methode lost het probleem op dat AI-modellen vastlopen op moeilijke vragen, en helpt hen om echt slim te worden in wiskunde.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Learn Hard Problems During RL with Reference Guided Fine-tuning" in het Nederlands.

Titel: Learn Hard Problems During RL with Reference Guided Fine-tuning (ReGFT)

Auteurs: Yangzhen Wu, Shanda Li, Zixin Wen, et al. (ByteDance Seed, UC Berkeley, Carnegie Mellon University)

1. Het Probleem: Belonings-Sparsiteit in RL voor Wiskundig Redeneren

Reinforcement Learning (RL) heeft zich bewezen als een krachtige methode om de redeneercapaciteiten van Large Language Models (LLM's) te verbeteren, zoals gezien bij modellen als OpenAI's o1 en DeepSeek's R1. Een veelgebruikte variant is RL met Verifieerbare Beloningen (RLVR), waarbij een automatische verifier de juistheid van het eindantwoord controleert en een beloning toekent.

Het paper identificeert een fundamentele beperking in deze aanpak: belonings-sparsiteit (reward sparsity).

Bij moeilijke problemen (beyond the model's current capability) faalt het basismodel vaak om enige correcte redeneertrajecten te genereren tijdens het sampling-proces.
Zonder correcte trajecten ontvangt het model geen positieve beloningen. Hierdoor zijn er geen betekenisvolle gradiënten voor leren, en stagneert het trainingsproces.
Bestaande datasets bevatten vaak menselijke referentieoplossingen (Chain-of-Thought). Echter, direct Supervised Fine-Tuning (SFT) op deze menselijke oplossingen werkt vaak niet goed. Modellen kunnen menselijke bewijzen die buiten hun eigen redeneer-distributie liggen vaak niet goed imiteren, wat leidt tot slechte generalisatie.
Bestaande methoden zoals ReFT (Reinforced Fine-Tuning) lossen dit slechts gedeeltelijk op door te fine-tunen op zelfgegenereerde correcte trajecten. Dit helpt bij problemen die het model al redelijk kan oplossen, maar faalt bij de aller moeilijkste problemen waar het model aanvankelijk geen enkel correct antwoord kan vinden.

2. Methodologie: Reference-Guided Fine-Tuning (ReGFT)

Om de belonings-sparsiteit te overwinnen en het model in staat te stellen moeilijke problemen op te lossen voordat RL begint, stellen de auteurs Reference-Guided Fine-Tuning (ReGFT) voor.

Kernidee:
In plaats van het model direct te laten kopiëren van menselijke oplossingen, gebruikt ReGFT menselijke referenties als hint om het model te stimuleren om zijn eigen redeneertraject te genereren dat wel consistent is met de oplossing.

Het ReGFT-proces:

Selectie van Moeilijke Problemen: Het proces richt zich specifiek op problemen waar het basismodel een lage nauwkeurigheid heeft (minder dan 25% bij 16 samples).
Gedeeltelijke Referentie als Hint: Voor een moeilijk probleem wordt het model een prompt gegeven die bestaat uit de vraag en een gedeeltelijke menselijke referentieoplossing (bijv. de eerste 80% van de redenering).
Zelf-Generatie: Het model moet de rest van de oplossing zelf redeneren en genereren. Het mag de hint volgen, maar moet de logica zelf uitwerken.
- Dit zorgt ervoor dat het gegenereerde traject binnen de "redeneerruimte" van het model blijft (vermijdt de mismatch van direct kopiëren).
- Het garandeert tegelijkertijd dat de oplossing correct is (geleid door de menselijke hint).
Hybride Fine-Tuning: Het model wordt getraind op een mengsel van:
- Zelfgegenereerde correcte trajecten (zoals bij ReFT).
- Referentie-gestuurde trajecten (gegenereerd via de hierboven beschreven methode).
RL Startpunt: Het zo verkregen checkpoint dient als een sterkere startpositie voor de daaropvolgende Reinforcement Learning fase (in dit paper met het DAPO-algoritme).

3. Belangrijkste Bijdragen

Overbrugging van de "Capability Gap": ReGFT lost het probleem op waarbij RL faalt omdat het model geen correcte antwoorden kan vinden. Door menselijke hints te gebruiken, wordt de kans op het genereren van correcte trajecten voor moeilijke problemen drastisch verhoogd voordat RL begint.
Behoud van Model-Distributie: In tegenstelling tot direct SFT op menselijke data, zorgt ReGFT ervoor dat de trainingsdata nog steeds afkomstig is van het model zelf (al dan niet met hints). Dit behoudt de consistentie van het redeneerpatroon en verbetert de generalisatie.
Synergie met RL: De methode is orthogonaal tot de keuze van het RL-algoritme. Het verbetert de initiële competentie van het model, waardoor RL efficiënter kan werken en sneller convergeert.

4. Resultaten

De auteurs hebben ReGFT getest op drie benchmarks: AIME'24, AIME'25 en Beyond-AIME, gebruikmakend van het OmniMath dataset voor training en Qwen3-4B als basismodel.

Verbeterde RL Prestaties: Modellen die zijn geïnitieerd met ReGFT presteren consistent beter dan modellen die zijn geïnitieerd met een "raw" checkpoint of alleen ReFT. Ze bereiken een hogere eindnauwkeurigheid en convergeren sneller.
Vergelijking met ReFT: Hoewel ReFT de vroege training versnelt door meer correcte samples te vinden, blijft het achter bij ReGFT op de eindnauwkeurigheid. Dit suggereert dat ReFT alleen de bestaande vaardigheden versterkt, terwijl ReGFT het model in staat stelt om nieuwe problemen op te lossen die eerder onoplosbaar waren.
Noodzaak van Model-gegenereerde Data: Directe fine-tuning op menselijke oplossingen (zonder hints) resulteert in slechtere prestaties. Dit bevestigt dat het model zijn eigen redeneerpad moet bouwen om de kennis effectief te internaliseren.
Inference-Time Scaling (Pass@k): ReGFT + DAPO toont superieure schaalbaarheid. Terwijl de voordelen van ReFT afnemen naarmate het aantal samples ( $k$ ) toeneemt, blijft het voordeel van ReGFT behouden of groeit zelfs. Dit wijst erop dat ReGFT de dekking van de oplossingsruimte verbetert en niet alleen de kans op één specifiek correct antwoord verhoogt.
Oplossen van Onoplosbare Problemen: Op de OmniMath dataset bleek dat referentie-gestuurde sampling het model in staat stelde om 5,85% extra problemen op te lossen die onder standaard sampling nooit werden opgelost.

5. Betekenis en Conclusie

Dit paper biedt een cruciale oplossing voor een van de grootste knelpunten in het trainen van LLM's voor wiskundig redeneren: het gebrek aan leerzame signalen bij moeilijke taken.

Paradigmaverschuiving: In plaats van te hopen dat RL het model vanzelf "ontdekt" hoe moeilijke problemen op te lossen (wat vaak leidt tot sparsiteit), stelt ReGFT voor om de competentie van het model proactief te verhogen door slim gebruik te maken van bestaande menselijke kennis.
Efficiëntie: Het maakt RL trainingsprocessen veel efficiënter en robuuster, zelfs met geavanceerde algoritmen zoals DAPO.
Toekomstperspectief: De methode is breed toepasbaar op elk domein waar menselijke referentieoplossingen beschikbaar zijn maar waar het model moeite heeft om zelfstandig correcte trajecten te genereren. Het combineert het beste van twee werelden: de structuur van menselijke expertise en de generalisatiekracht van model-gegenereerde data.

Kortom, ReGFT transformeert menselijke referenties van een statische trainingsbron naar een dynamische gids die het model helpt om zijn eigen redeneergrenzen te verleggen, waardoor RL effectief kan worden ingezet op de aller moeilijkste problemen.

Learn Hard Problems During RL with Reference Guided Fine-tuning

Het Probleem: De "Dode Zone" van de Leerling

De Oude Oplossing: Het Antwoordenboekje (SFT)

De Nieuwe Oplossing: ReGFT (De "Gids")

Waarom werkt dit zo goed?

De Resultaten in het Kort

Conclusie

Titel: Learn Hard Problems During RL with Reference Guided Fine-tuning (ReGFT)

1. Het Probleem: Belonings-Sparsiteit in RL voor Wiskundig Redeneren

2. Methodologie: Reference-Guided Fine-Tuning (ReGFT)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers