Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer intelligente, maar nog wat onervaren student wilt trainen om wiskundeproblemen op te lossen of complexe vragen te beantwoorden. Je hebt een beperkt aantal uren "studietijd" (rekenkracht) en een grote stapel met verschillende vragen: sommige zijn heel makkelijk, sommige zijn heel moeilijk, en sommige zitten ergens in het midden.

De traditionele manier om deze student te trainen is als volgt: je geeft elke vraag in een setje precies hetzelfde aantal oefeningen. Als je 16 oefeningen hebt, dan krijg je bij elke vraag 16 keer een poging. Dit is wat de paper "uniform allocation" noemt.

Het probleem:
Dit is inefficiënt.

Bij een heel makkelijk vraagstuk (waar de student al 100% zeker van is) zijn 16 oefeningen zonde van de tijd. Eén oefening is al genoeg om te weten dat het goed gaat. De extra 15 oefeningen geven geen nieuwe informatie.
Bij een heel moeilijk vraagstuk (waar de student 0% kans heeft) zijn 16 oefeningen ook zonde. De student blijft vastlopen, en je leert er niets van.
De echte leerkans zit in de vragen waar de student net begint te twijfelen. Daar is het verschil tussen "goed" en "fout" het grootst, en daar heb je de meeste oefeningen nodig om de juiste weg te vinden.

De oplossing: VIP (Variance-Informed Predictive allocation)
De auteurs van dit paper hebben een slimme methode bedacht, genaamd VIP. Je kunt VIP zien als een slimme studieleraar die niet blindelings alle vragen gelijk behandelt, maar kijkt naar de "onzekerheid" van de student.

Hier is hoe het werkt, vertaald in een verhaal:

1. De Slimme Voorspeller (Het Glazen Bolletje)

Voordat de student begint met oefenen, kijkt de leraar (VIP) naar de vragen. Hij gebruikt een wiskundig model (een "Gaussian Process", laten we het een slimme radar noemen) om te voorspellen: "Hoe groot is de kans dat de student deze vraag goed heeft?"

Als de radar zegt: "Deze vraag is makkelijk," dan denkt VIP: "Wees zuinig, geef hier maar weinig oefeningen."
Als de radar zegt: "Deze vraag is onzeker (de student zit in de 'grijze zone')," dan denkt VIP: "Hier gaan we veel tijd in steken!"

2. Het Budget Verdelen (De Koekjesbakker)

Stel je hebt een bak met 100 koekjes (je rekenkracht) en 10 leerlingen (vragen).

De oude methode deelt 10 koekjes aan iedereen uit, ongeacht of ze honger hebben of niet.
De VIP-methode kijkt naar de radar. De leerlingen die al vol zitten (makkelijke vragen) krijgen 1 koekje. De leerlingen die hongerig zijn en worstelen met de stof (de onzekere vragen) krijgen 20 of 30 koekjes.

Het doel is om de "verwarring" (in het paper variance genoemd) van de hele klas zo snel mogelijk te verlagen. Door de koekjes daar te geven waar ze het meeste verschil maken, leer je de student sneller en beter.

3. Waarom is dit slim?

In de wereld van kunstmatige intelligentie (AI) is rekenkracht duur en traag. Het genereren van antwoorden kost tijd.

Vroeger: Je waste veel tijd door 16 keer hetzelfde makkelijke probleem te laten oplossen.
Nu met VIP: Je stopt die tijd in de moeilijke problemen waar de AI echt moet "nadenken".

De paper toont aan dat als je deze slimme verdeling gebruikt, de AI (zoals een model dat wiskunde doet) veel sneller leert en betere resultaten haalt dan als je alles gelijk behandelt. Het is alsof je een marathonloper traint: je laat hem niet 100 keer dezelfde 100 meter lopen, maar je varieert het trainingsprogramma zodat hij precies op de punten traint waar hij nog niet goed genoeg is.

Samenvattend:
VIP is een slimme manier om te beslissen waar je je tijd en rekenkracht in steekt. In plaats van iedereen even veel aandacht te geven, focust het zich op de vragen die het meeste "leerpotentieel" hebben. Het is een beetje als een slimme verdeling van je geld: je geeft niet iedereen evenveel zakgeld, maar je investeert extra in de projecten die het meeste rendement opleveren.

Dankzij deze methode kunnen AI-modellen sneller en slimmer worden met minder rekenkracht.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards" (VIP), gepresenteerd als een conferentiepaper bij ICLR 2026.

Probleemstelling

Bij Reinforcement Learning met verifieerbare beloningen (RLVR), zoals bij het trainen van Large Language Models (LLMs) voor wiskundig redeneren, is sample-efficiëntie een kritieke bottleneck. Bestaande methoden voor groepsgebaseerde policy-optimalisatie (zoals GRPO, Dr. GRPO en RLOO) alloceren een vast aantal rollouts (generaties van antwoorden) voor elke prompt in een trainingsbatch.

Deze uniforme allocatie gaat uit van de aanname dat alle prompts even informatief zijn. Dit is echter suboptimaal:

Prompts die het model al zeer goed beheerst (succeskans $\approx 1$ ) of die het model volledig niet begrijpt (succeskans $\approx 0$ ), genereren weinig tot geen gradiëntinformatie.
Het genereren van rollouts is computatie-intensief. Het uniform verdelen van een beperkt computatiebudget over alle prompts leidt tot inefficiënt gebruik van middelen en vertraagt de trainingsvoortgang.

Er is behoefte aan een adaptieve strategie die dynamisch bepaalt hoeveel rollouts er per prompt gegenereerd moeten worden om de verwachte gradiëntvariatie te minimaliseren binnen een vast computatiebudget.

Methodologie: VIP (Variance-Informed Predictive allocation)

De auteurs introduceren VIP, een raamwerk dat de allocatie van rollouts optimaliseert door de verwachte variatie van de gradiënt per prompt te voorspellen en te minimaliseren. De methode bestaat uit drie kerncomponenten:

1. Theoretische Analyse van Gradiëntvariatie

De auteurs leiden een wiskundige relatie af tussen de gradiëntvariatie en de succeskans ( $p$ ) van een prompt.

Voor algoritmen zoals Dr. GRPO en RLOO wordt aangetoond dat de variatie van de gradiëntestimator voor een prompt met $n$ rollouts evenredig is met $p(1-p)$ .
Dit betekent dat de variatie maximaal is wanneer $p \approx 0.5$ (moeilijke, maar oplosbare prompts) en minimaal wanneer $p \approx 0$ of $p \approx 1$ .
De doelstelling wordt dus om meer rollouts toe te wijzen aan prompts met een geschatte $p$ dicht bij 0.5, en minder aan die aan de uitersten.

2. Voorspelling met Gaussian Processes (GP)

Omdat de werkelijke succeskans $p$ vooraf onbekend is, gebruikt VIP een Gaussian Process (GP) model om deze te schatten.

Input: De embeddings van de prompts.
Mechanisme: Het GP-model modelleert de latente functie die de log-odds van de succeskans bepaalt.
Recursieve Update: Na elke iteratie worden de resultaten van de gegenereerde rollouts gebruikt om het GP-model bij te werken (Bayesiaanse update). Hierdoor past het model zich dynamisch aan de veranderende capaciteiten van het LLM aan tijdens het trainingsproces.
Dit zorgt voor een nauwkeurige schatting van $\hat{p}_q$ voor elke prompt $q$ in de huidige mini-batch.

3. Convexe Optimalisatie voor Allocatie

Op basis van de voorspelde variances ( $\hat{p}_q(1-\hat{p}_q)$ ) wordt een convex optimalisatieprobleem opgelost om het aantal rollouts $n_q$ per prompt te bepalen.

Doelfunctie: Minimaliseren van de som van de verwachte gradiëntvariatie over de hele batch.
Beperkingen: Het totale aantal rollouts moet gelijk zijn aan het beschikbare budget $C$ , en het aantal rollouts per prompt moet binnen een onder- en bovengrens ( $L \leq n_q \leq U$ ) vallen om overfitting of onbetrouwbare signalen te voorkomen.
Oplossing: De auteurs leiden een efficiënt algoritme af dat de continue relaxatie van het probleem exact oplost (via bisection search op een Lagrange-multiplicator) en vervolgens een heuristische afronding toepast om een geldige geheeltallige oplossing te verkrijgen.

Kernbijdragen

Theoretische Gradiëntvariatie Analyse: Een rigoureuze afleiding van de relatie tussen gradiëntvariatie en de succesprobabiliteit voor populaire groepsgebaseerde RL-methoden (Dr. GRPO en RLOO).
Variance-Informed Predictie: Het gebruik van Gaussian Processes voor het voorspellen van prompt-succesprobabiliteiten in een niet-stationaire omgeving (waarbij het model tijdens het trainen verandert), wat superieur is aan statische heuristieken.
Optimale Allocatie Algoritme: Een wiskundig onderbouwd, convex optimalisatieframework dat het computatiebudget toewijst om de gradiëntvariatie te minimaliseren, inclusief een efficiënte oplossing voor het discrete allocatieprobleem.

Resultaten

De auteurs evalueren VIP op twee taken: Wiskundig Redeneren (op datasets zoals DAPO-MATH-17k, getest op AIME2024/2025) en Tool-Augmented Reasoning (MuSiQue, Bamboogle).

Prestatieverbetering: VIP levert consistent betere resultaten op dan uniforme allocatie of heuristische methoden (zoals "Inverse Accuracy" of "Inverse Variance").
- Bijvoorbeeld: Op de Qwen2.5-Math-1.5B model met een budget van $8 \times Q$, verbetert RLOO+VIP de Pass@32 met +12.3% ten opzichte van standaard RLOO.
- De verbeteringen zijn het grootst bij kleinere modellen (1.5B, 3B), wat suggereert dat VIP vooral helpt bij modellen die het budget anderszins inefficiënt zouden benutten.
Efficiëntie: De extra rekentijd voor het GP-model en de optimalisatie is verwaarloosbaar (minder dan 1.2% van de totale trainings tijd), zelfs voor grotere modellen.
Ablatie Studies: Experimenten tonen aan dat zowel de GP-voorspeller als de adaptieve allocatie noodzakelijk zijn voor de prestaties. Het vervangen van de GP door Ridge-regressie leidt tot een merkbare daling in prestaties, wat de waarde van de geëvalueerde onzekerheid benadrukt.

Betekenis en Impact

Dit paper biedt een principieel raamwerk voor het efficiënter trainen van LLMs met verifieerbare beloningen. Door het computatiebudget dynamisch toe te wijzen aan de "meest leerzame" prompts (die een hoge gradiëntvariatie hebben), kan VIP de trainingskosten verlagen of de eindprestaties verhogen zonder extra hardware.

De methode is breed toepasbaar op bestaande RLVR-algoritmen (zoals GRPO en RLOO) en vormt een belangrijke stap richting meer adaptieve, resource-efficiënte trainingspijplijnen voor grote taalmodellen. De auteurs wijzen er ook op dat de methode in de toekomst kan worden uitgebreid naar niet-verifieerbare beloningen (zoals bij RLHF), wat de relevantie voor het bredere veld van AI-uitlijning vergroot.

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

1. De Slimme Voorspeller (Het Glazen Bolletje)

2. Het Budget Verdelen (De Koekjesbakker)

3. Waarom is dit slim?

Probleemstelling

Methodologie: VIP (Variance-Informed Predictive allocation)

1. Theoretische Analyse van Gradiëntvariatie

2. Voorspelling met Gaussian Processes (GP)

3. Convexe Optimalisatie voor Allocatie

Kernbijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers