RLP: Reinforcement as a Pretraining Objective

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een jonge student wilt leren wiskunde.

De oude manier (zoals nu vaak gebeurt):
Je laat de student eerst miljoenen boeken lezen en vraagt hem om telkens het volgende woord te voorspellen. "De hemel is..." -> "blauw". "Een appel is..." -> "rood". Dit is goed voor taal, maar de student leert niet echt nadenken. Hij leert alleen patronen te herhalen. Pas als hij al bijna een afgestudeerde is (na het lezen van alle boeken), geef je hem een moeilijke wiskundetoets en zeg je: "Als je dit goed oplost, krijg je een sterretje." Dan probeert hij plotseling te leren redeneren. Dit werkt, maar het is alsof je iemand laat zwemmen en pas aan het einde van de les zegt: "Oh, je moet je benen bewegen!"

De nieuwe manier (RLP uit dit paper):
De onderzoekers van NVIDIA en universiteiten zeggen: "Wacht even. Waarom wachten we met het leren van nadenken tot het einde?"

Ze introduceren RLP (Reinforcement Learning Pretraining). Hier is hoe het werkt, vertaald naar een simpel verhaal:

1. De "Gedachtenkrans" (Chain of Thought) als een tussenstap

Stel je voor dat de student een vraag krijgt. In plaats van direct het antwoord te gissen, zegt de nieuwe methode:
"Stop even. Schrijf eerst een kort briefje met je gedachten op. Denk na over wat er gaat komen. Pas daarna schrijf je het volgende woord."

Dit "briefje" noemen ze een Chain of Thought (een keten van gedachten). Het is alsof de student eerst even in zijn hoofd fluistert: "Oké, dit gaat over fotosynthese. Planten hebben zonlicht nodig. Dus het volgende woord is waarschijnlijk 'zon'."

2. De "Onzichtbare Juf" (De Beloning)

Hoe weet de computer of het gedachtenbriefje goed was? Normaal heb je een juf nodig die het antwoord nakijkt. Maar hier is er geen juf.

In plaats daarvan vergelijken ze twee scenario's:

Scenario A (Zonder nadenken): De student gist het woord direct.
Scenario B (Met nadenken): De student schrijft eerst zijn gedachten op en kijkt dan naar het woord.

Als Scenario B het woord veel beter voorspelt dan Scenario A, krijgt de student een beloning.

Voorbeeld: Als het gedachtenbriefje hem hielp om te zien dat het woord "zonlicht" moet zijn, krijgt hij een punt. Als het briefje hem verwarde en hij koos het verkeerde woord, krijgt hij geen punt.

Het mooie is: dit werkt op elk stuk tekst, zelfs op gewone nieuwsberichten of verhalen. Je hebt geen speciale wiskundetoetsen nodig. De "beloning" is puur gebaseerd op: "Hielp dit nadenken om de volgende zin beter te begrijpen?"

3. Waarom is dit zo slim?

Stel je voor dat je een speler leert schaken.

De oude methode: Laat de speler 10.000 partijen spelen zonder commentaar, en geef hem pas aan het einde een medaille als hij wint.
De RLP-methode: Laat de speler bij elke zet even zeggen: "Ik denk dat ik hier moet aanvallen omdat..." en geef hem direct een compliment als die gedachte leidt tot een betere zet.

Door dit te doen tijdens het lezen van de boeken (pre-training), leert het model niet alleen woorden te voorspellen, maar leert het onafhankelijk denken. Het leert dat "nadenken" een nuttige tool is om de wereld beter te begrijpen.

Wat is het resultaat?

De paper laat zien dat modellen die met deze methode zijn getraind:

Beter nadenken: Ze worden veel slimmer in wiskunde en wetenschap (zoals het oplossen van moeilijke puzzels).
Sneller leren: Ze hebben minder data nodig om even goed te worden als modellen die duizenden keren meer hebben gelezen.
Blijven hangen: Zelfs als je ze later nog extra traint met de oude methode, blijven ze hun "denkvaardigheid" behouden. Het is als een spier die je vroeg hebt opgebouwd; hij blijft sterk.

Kortom:
RLP is alsof we AI-modellen niet alleen leren praten, maar ze ook leren nadenken voordat ze iets zeggen. En we doen dit niet aan het einde van hun opleiding, maar vanaf dag één, terwijl ze nog gewoon boeken lezen. Het resultaat zijn slimme modellen die niet alleen woorden kennen, maar ook begrijpen waarom die woorden daar staan.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De huidige dominante paradigma voor het trainen van grote redeneringsmodellen (Large Reasoning Models) volgt een strikt tweestapsproces:

Pre-training: Modellen worden getraind op enorme hoeveelheden data met als enige doel next-token prediction (het voorspellen van het volgende woord). Dit doel moedigt echter niet expliciet langdurig redeneren of integratie met wereldkennis aan.
Post-training: Pas na de pre-training worden geavanceerde redeneervermogens geïntroduceerd via Supervised Fine-Tuning (SFT) en Reinforcement Learning (RL) met menselijke of verifieerbare feedback (zoals RLHF of RLVR).

Het paper stelt dat dit een suboptimale aanpak is. Menselijk begrip is geen lineair proces van token-na-token, maar een parallelle integratie van input met voorkennis. Door RL pas als laatste stap toe te passen, mist het model de kans om onafhankelijke denkgedragingen ("thinking") al vroeg in het leerproces te internaliseren. Bestaande methoden voor pre-training met RL (zoals RPT) zijn vaak afhankelijk van externe verifiers, werken alleen op geselecteerde tokens, of vereisen gespecialiseerde datasets, wat de schaalbaarheid en generalisatie beperkt.

Methodologie: RLP (Reinforcement Learning Pre-training)

De auteurs introduceren RLP, een informatiegedreven pre-training doelstelling die de kern van reinforcement learning (exploratie) naar de laatste fase van pre-training brengt.

Kernidee:
In plaats van direct het volgende token te voorspellen, wordt Chain-of-Thought (CoT) behandeld als een expliciete "actie" die het model neemt voordat het het volgende token voorspelt. Het model leert om te denken over wat er komen gaat, en dit denken wordt beloond op basis van de informatiewinst die het oplevert voor de voorspelling.

Technische Implementatie:

Architectuur: Er wordt gebruik gemaakt van één enkel netwerk met parameters $\theta$ $θ$ .
- Het netwerk sampleert eerst een interne gedachte (CoT), $c_t$ , gegeven de context $x_{<t}$ .
- Vervolgens voorspelt het het volgende token $x_t$ op basis van de context plus de gedachte: $p_\theta(x_t | x_{<t}, c_t)$ .
De Baseline (No-Think): Een Exponential Moving Average (EMA) leraar $\bar{p}_\phi$ fungeert als een "no-think" contrafactual. Deze teacher wordt gebruikt om de waarschijnlijkheid van $x_t$ te scoren zonder de gedachte $c_t$ . De EMA-update zorgt ervoor dat de baseline iets achterloopt op het huidige model, wat voorkomt dat het model de beloning manipuleert (reward hacking).
De Beloning (Reward):
- De beloning $r(c_t)$ is gedefinieerd als de log-likelihood ratio tussen de voorspelling met gedachte en de voorspelling zonder gedachte:
  $r(c_t) = \log p_\theta(x_t | x_{<t}, c_t) - \log \bar{p}_\phi(x_t | x_{<t})$
- Dit is een verifier-vrije, dichte beloningssignaal. Het is "dicht" omdat het op elke positie in de tekst kan worden berekend, en "verifier-vrij" omdat het geen externe corrector nodig heeft; de waarheid ligt in de data zelf (de volgende token in de corpus).
- Een positieve beloning betekent dat het denken de voorspelling van het volgende token heeft verbeterd ten opzichte van de baseline.
Optimalisatie:
- Het doel is om de verwachte informatie-winst te maximaliseren.
- Er wordt gebruik gemaakt van Group-Relative Advantages (vergelijkbaar met GRPO): voor elke context worden meerdere gedachten gesampleerd, en de beloning wordt genormaliseerd ten opzichte van het gemiddelde van de groep.
- De updates gebeuren alleen op de tokens van de gedachte (CoT), niet op de voorspelde tokens zelf, via een afgeknipte surrogate loss (clipped surrogate).

Belangrijkste Bijdragen

RLP als Pre-training Object: Het is de eerste methode die reinforcement learning voor redenering integreert in de pre-training fase zelf, in plaats van alleen in post-training.
Verifier-vrij en Dicht: De methode vereist geen externe verifiers of gecureerde datasets. Het werkt op elke gewone tekst (web-crawl, academische papers, etc.) door informatie-winst als beloning te gebruiken.
Theoretische Garantie: De auteurs bewijzen dat het maximaliseren van de verwachte beloning equivalent is aan het verminderen van de cross-entropy tussen het model en de data-distributie. Dit garandeert dat het model daadwerkelijk leert om beter te voorspellen.
Stabiliteit: Door de EMA-baseline en group-relative advantages wordt training stabiel gehouden en wordt voorkomen dat het model "gaming" van de beloning toepast.

Resultaten

De auteurs hebben RLP getest op verschillende modellen en datasets, met name QWEN3-1.7B-BASE en NEMOTRON-NANO-12B-V2 (een hybride Mamba-Transformer).

Pre-training Effectiviteit:
- Op QWEN3-1.7B-BASE verbeterde RLP de gemiddelde prestatie over een suite van 8 wiskunde- en wetenschapsbenchmarks met 19% ten opzichte van de basispre-training.
- Zelfs wanneer de baseline-modellen 35x meer data verwerkten (FLOP-gelijk), presteerde RLP beter, wat aantoont dat het een kwalitatieve verbetering is en niet slechts een kwestie van meer rekenkracht.
Post-training Synergie:
- De voordelen van RLP verdwijnen niet na post-training (SFT + RLVR). Integendeel, ze versterken elkaar. Modellen getraind met RLP behaalden na post-training een 7-8% hogere score dan conventioneel getrainde modellen.
- De grootste verbeteringen werden gezien in zware redeneringstaken zoals AIME25 en MMLU-Pro.
Schaalbaarheid:
- Bij toepassing op het 12B-parameter hybride model (NEMOTRON-NANO-12B-V2) steeg de algehele gemiddelde score van 42,81% naar 61,32%.
- De wetenschappelijke redenering verbeterde met 23%.
Generalisatie:
- RLP werkt effectief op diverse data-corpora, van gespecialiseerde wiskundedata tot algemene web-crawl data. Het leert redeneren zonder afhankelijk te zijn van specifiek "redeneer-gerichte" datasets.

Betekenis en Impact

Dit paper biedt een fundamentele verschuiving in hoe we grote taalmodellen trainen:

Van "Laten Denken" naar "Leren Denken": In plaats van redeneren als een naslagwerk dat na het pre-training proces wordt toegevoegd, leert RLP modellen om tijdens het pre-training proces te denken.
Efficiëntie: Het is uiterst data-efficiënt. Het kan redeneervermogen extraheren uit ruwe, ongecurateerde webdata, wat de kosten voor het creëren van gespecialiseerde redeneerdatasets verlaagt.
Architectonische Onafhankelijkheid: De methode werkt zowel op pure Transformer-architecturen als op hybride Mamba-Transformer modellen, wat suggereert dat het een universeel principe is voor het verbeteren van taalmodellen.

Kortom, RLP bewijst dat reinforcement learning niet alleen een post-training tool is, maar een krachtige, fundamentele pre-training doelstelling kan zijn die modellen leert om onafhankelijk en effectief te redeneren voordat ze überhaupt worden afgestemd op specifieke taken.

RLP: Reinforcement as a Pretraining Objective

1. De "Gedachtenkrans" (Chain of Thought) als een tussenstap

2. De "Onzichtbare Juf" (De Beloning)

3. Waarom is dit zo slim?

Wat is het resultaat?

Probleemstelling

Methodologie: RLP (Reinforcement Learning Pre-training)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

LLM-Augmented Knowledge Base Construction For Root Cause Analysis

The Stepwise Informativeness Assumption: Why are Entropy Dynamics and Reasoning Correlated in LLMs?

Depression Detection at the Point of Care: Automated Analysis of Linguistic Signals from Routine Primary Care Encounters

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Consistency-Guided Decoding with Proof-Driven Disambiguation for Three-Way Logical Question Answering