LLMs Can Learn to Reason Via Off-Policy RL

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een briljante student (een LLM, ofwel een groot taalmodel) wilt trainen om wiskundige puzzels op te lossen of code te schrijven.

Vroeger deed je dit door de student te laten oefenen met een leraar die precies hetzelfde deed als de student. Als de student een fout maakte, keek de leraar direct naar de oplossing en gaf hij feedback. Dit noemen we "on-policy" leren. Het probleem is echter: in de echte wereld is dat onmogelijk.

Stel je voor dat de leraar (de computer die de antwoorden berekent) en de student (de computer die de antwoorden genereert) in verschillende gebouwen zitten, of dat de leraar soms even moet wachten voordat hij zijn nieuwe kennis kan doorgeven. De student begint dan te oefenen met oude kennis, terwijl de leraar al nieuwe kennis heeft. De data die de student gebruikt, komt dus niet meer van de huidige leraar, maar van een oude versie. Dit noemen we "off-policy" (buiten het beleid om).

Tot nu toe probeerden onderzoekers dit probleem op te lossen door de leraar en de student gedwongen op elkaar af te stemmen, of door ingewikkelde wiskundige correcties toe te passen om de oude data "nieuw" te laten lijken. Dit was traag, duur en vaak instabiel.

De nieuwe oplossing: OAPL

In dit paper stellen de auteurs een nieuwe methode voor, genaamd OAPL. Ze zeggen eigenlijk: "Waarom proberen we de data 'on-policy' te maken? Laten we gewoon accepteren dat de student met oude data oefent, en daar een slimme manier voor vinden."

Hier is hoe het werkt, met een paar creatieve vergelijkingen:

1. De "Gids" in plaats van de "Leraar"

Stel je voor dat de student (de trainer) en de gids (de inferentie-engine) samen een berg beklimmen.

De oude manier (GRPO): De student probeert elke stap te doen die de gids nu zou doen. Maar als de gids 100 stappen vooruit is, raakt de student in de war. Hij probeert de gids te imiteren, maar omdat de gids al ver weg is, valt de student vaak in een kuil (instabiliteit).
De OAPL-methode: De student accepteert dat hij met een kaart werkt die 100 stappen oud is (de gids van vroeger). In plaats van te proberen exact te imiteren, gebruikt hij een slimme formule. Hij zegt: "Oké, deze oude kaart zegt dat route A goed was. Maar ik heb nu een nieuwe kaart. Hoeveel beter is mijn huidige route dan wat de oude kaart voorspelde?"

2. De "Spiegel" en de "Kompasnaald"

OAPL gebruikt een slimme truc. Het stelt de vraag: "Als ik deze oude route (data) bekijk, wat zou de beste nieuwe route zijn?"
Ze gebruiken een wiskundige formule die werkt als een kompas. In plaats van te zeggen "Je moet precies doen wat ik nu doe" (wat onmogelijk is als de data oud is), zegt het kompas: "Blijf dicht bij de oude kaart, maar beweeg een beetje in de richting van de beloning."

Dit voorkomt dat de student in paniek raakt en helemaal de weg kwijtraakt (wat "entropy collapse" wordt genoemd). De student blijft stabiel, zelfs als de gids 400 stappen vooruit is.

3. Waarom is dit beter?

Snelheid: Omdat je niet hoeft te wachten tot de leraar en de student perfect synchroon lopen, kunnen ze tegelijkertijd werken. Het is alsof je een fabriek hebt waar de machines niet hoeven te wachten op elkaar.
Efficiëntie: De auteurs tonen aan dat je met OAPL 3 keer minder oefenmateriaal nodig hebt om even goed te worden als de oude methoden. Het is alsof je met een slimme studietekst in plaats van 100 saaie herhalingen, dezelfde toets haalt.
Betrouwbaarheid: Bij de oude methoden viel de prestatie soms in als de data te oud was. Met OAPL blijft de prestatie stabiel, zelfs als de data heel oud is.

De Resultaten in het Kort

De auteurs hebben dit getest op twee gebieden:

Wiskunde: OAPL deed het beter dan de beste bestaande methoden op moeilijke wiskundetoetsen (zoals AIME en HMMT).
Programmeren: Ze konden een model bouwen dat net zo goed code schrijft als een beroemd bestaand model (DeepCoder), maar dan met 3 keer minder trainingstijd en data.

De Grootste Les

Het belangrijkste punt van dit paper is een gedachte-experiment: Je hoeft niet perfect synchroon te lopen om te leren.

In het verleden dachten we dat een AI alleen goed kon leren als de data exact van het huidige model kwam. Dit paper bewijst dat je juist veel efficiënter kunt leren door te accepteren dat je met "verouderde" data werkt, zolang je maar een slimme manier hebt om die data te interpreteren. Het is als het leren van autorijden: je hoeft niet elke seconde een nieuwe rijinstructie te krijgen van een instructeur die precies naast je zit; je kunt prima leren door te kijken naar de weg die je gisteren reed, zolang je maar weet hoe je de bochten moet nemen.

Kortom: OAPL is een slimmere, snellere en goedkopere manier om AI-modellen slim te maken, door de "oude data" niet als een probleem, maar als een kans te zien.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling: De On-Policy Aanneming in RL voor LLM's

Reinforcement Learning (RL) wordt steeds vaker gebruikt om Large Language Models (LLM's) te optimaliseren voor redeneertaken (zoals wiskunde en coderen). De huidige staat van de kunst, zoals geïllustreerd door DeepSeek-R1, maakt gebruik van on-policy algoritmen zoals GRPO (Group Relative Policy Optimization) of PPO.

Het fundamentele probleem is dat deze on-policy aanneming in de praktijk vaak wordt geschonden door de architectuur van gedistribueerde training:

Policy Lag: De "trainer" (die de gradients berekent) en de "inference engine" (die data genereert, vaak via vLLM) werken vaak asynchroon. De inference engine kan verouderde gewichten bevatten ten opzichte van de trainer.
Kernel Verschillen: Zelfs met identieke gewichten kunnen de trainer en de inference engine verschillende log-probabiliteiten genereren voor dezelfde tokenreeks vanwege verschillen in kernel-implementaties.
Gevolg: De data die wordt gebruikt om het huidige beleid te optimaliseren, is niet gegenereerd door datzelfde beleid. Dit maakt de data per definitie off-policy.

Bestaande oplossingen proberen dit probleem te omzeilen door:

Importance Sampling (IS): Gewichten toe te voegen om de mismatch te corrigeren (verhoogt de variantie van de loss).
Engine-aanpassingen: De inference engine aan te passen om dichter bij de trainer te liggen (vertraagt de inferentie en lost het probleem niet volledig op bij asynchrone training).

De auteurs stellen de vraag: Is on-policy leren echt noodzakelijk voor RL-post-training, en kunnen we een eenvoudige, schaalbare off-policy oplossing ontwikkelen?

Methodologie: OAPL

De auteurs introduceren OAPL (Optimal Advantage-based Policy Optimization with Lagged Inference policy). Dit is een volledig off-policy algoritme dat de mismatch tussen trainer en inference engine omarmt in plaats van deze te bestrijden.

Kernprincipes:

KL-Regularisatie Formule: Het doel is om de beloning $r$ te maximaliseren terwijl de Kullback-Leibler (KL) divergentie met de inference policy $\pi_{vllm}$ wordt geminimaliseerd:
$\max_{\pi} \mathbb{E}_{x,y \sim \pi} [r(x, y)] - \beta \cdot KL(\pi || \pi_{vllm})$
Gesloten Vorm Oplossing: Uit de theorie van KL-geregulariseerd RL volgt dat de optimale policy $\pi^*$ een gesloten vorm heeft:
$\pi^*(y|x) \propto \pi_{vllm}(y|x) \exp(r(x, y)/\beta)$
Dit leidt tot een relatie tussen de optimale waarde $V^*$ en de optimale voordeel (advantage) $A^*$ :
$\beta \ln \frac{\pi^*(y|x)}{\pi_{vllm}(y|x)} = r(x, y) - V^*(x) = A^*(x, y)$
Schattingsstrategie: In plaats van een on-policy dataset te vereisen, schatten de auteurs $V^*(x)$ direct uit een groep rollouts gegenereerd door de lagged inference policy $\pi_{vllm}$ :
$\hat{V}^*(x) = \beta \ln \left( \frac{1}{G} \sum_{i=1}^G \exp(r(x, y_i)/\beta) \right)$
De Loss Functie: De optimalisatie wordt omgezet in een kwadratische regressie (least-squares) doelstelling. De trainer probeert de log-probabiliteiten van het huidige beleid $\pi$ zo af te stemmen dat ze de geschatte optimale voordeelwaarde voorspellen:
$\min_{\pi} \sum_{x, i} \left( \beta \ln \frac{\pi(y_i|x)}{\pi_{vllm}(y_i|x)} - (r(x, y_i) - \hat{V}^*(x)) \right)^2$

Het OAPL Algoritme:

De trainer en inference engine worden periodiek gesynchroniseerd (elke $L$ iteraties).
Tussen synchronisaties genereert de inference engine (met verouderde gewichten) data die in een buffer wordt opgeslagen.
De trainer update zijn beleid continu met deze data, waarbij $\pi_{vllm}$ dient als referentie voor de KL-term.
Belangrijk: Er zijn geen importance sampling ratios, geen clipping-operatoren en geen verwijdering van "verouderde" tokens nodig.

Belangrijkste Bijdragen

Paradigmaverschuiving: Het paper toont aan dat on-policy training niet noodzakelijk is voor effectieve RL-post-training van LLM's. Off-policy training kan stabieler en efficiënter zijn.
Nieuw Algoritme (OAPL): Een eenvoudig te implementeren, volledig off-policy algoritme dat geen importance sampling vereist en robust is tegen grote policy-lags (tot >400 gradient-steps).
Theoretische Onderbouwing: Het gebruik van de gesloten vorm oplossing van KL-geregulariseerd RL om een stabiele regressie-loss af te leiden die direct werkt met off-policy data.
Verbeterde Test-time Scaling: OAPL voorkomt entropie-collaps (een veelvoorkomend probleem bij GRPO) en verbetert de schaalbaarheid van Pass@k-metrics aanzienlijk.

Resultaten

De auteurs evalueren OAPL op wiskundige competitie-benchmarks en code-generatie.

1. Wiskundige Redenering (AIME 25, HMMT 25, BRUMO 25):

Prestatie: OAPL presteert beter dan een GRPO-baseline met importance sampling op alle Pass@k-metrics (Pass@1 tot Pass@10).
Stabiliteit: De trainingscurves tonen dat OAPL convergeert naar een hogere nauwkeurigheid en stabiel blijft, terwijl GRPO soms instabiel wordt.
Entropie: OAPL behoudt een hoge sequence-entropie tijdens training, wat leidt tot betere diversiteit in oplossingen en superioriteit op Pass@5 en Pass@10. GRPO vertoont vaak entropie-collaps.
Robuustheid: Zelfs met een synchronisatie-interval van $L=100$ (zeer off-policy), blijft OAPL stabiel leren.

2. Code Generatie (LiveCodeBench):

Vergelijking met DeepCoder: OAPL kan de prestaties van DeepCoder (een state-of-the-art model getraind met GRPO en complexe heuristieken) evenaren of zelfs overtreffen.
Sample Efficiency: OAPL bereikt deze prestaties met 3x minder gegenereerde samples tijdens training (ongeveer 200k vs 650k voor DeepCoder).
Extreme Lag: In het code-generatie-experiment werd een lag van ongeveer 400 gradient-steps gebruikt zonder dat importance sampling nodig was.

3. Test-time Scaling (Pass@k):

In tegenstelling tot eerdere studies die suggereerden dat RL alleen de basisverdeling verscherpt (en Pass@k voor grote $k$ niet verbetert), toont OAPL aan dat RL-training de Pass@k-metrics verbetert voor $k$ tot 256. Dit suggereert dat het model leert om meerdere redeneerpaden te verkennen in plaats van alleen de meest waarschijnlijke te kiezen.

Betekenis en Conclusie

Dit paper is een significant doorbraak in het veld van RL voor LLM's. Het weerlegt het idee dat on-policy training (zoals PPO/GRPO) de enige weg is naar stabiel redeneren.

Efficiëntie: Door de noodzaak van importance sampling en frequente synchronisatie te elimineren, maakt OAPL volledig asynchrone training mogelijk, wat leidt tot aanzienlijke besparingen in rekentijd en data.
Schaalbaarheid: De methode is schaalbaar naar zeer grote modellen en complexe taken zonder de stabiliteit te verliezen die vaak wordt geassocieerd met off-policy data.
Toekomstperspectief: Het opent de deur voor het gebruik van bestaande, offline datasets (zoals menselijke data) voor RL-training, wat de kosten en de tijd voor het trainen van redeneer-LLM's drastisch kan verlagen.

Samenvattend bewijst OAPL dat het omarmen van de "off-policyness" in plaats van het proberen te corrigeren, leidt tot een robuuster, efficiënter en effectiever trainingsparadigma voor Large Language Models.

LLMs Can Learn to Reason Via Off-Policy RL

1. De "Gids" in plaats van de "Leraar"

2. De "Spiegel" en de "Kompasnaald"

3. Waarom is dit beter?

De Resultaten in het Kort

De Grootste Les

Probleemstelling: De On-Policy Aanneming in RL voor LLM's

Methodologie: OAPL

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Entropy After for reasoning model early exiting

Alternatives to the Laplacian for Scalable Spectral Clustering with Group Fairness Constraints

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer