Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme, maar nog wat onervaren student wilt trainen om wiskundeproblemen op te lossen. De huidige methode om dit te doen (genaamd RLVR) werkt als volgt: je laat de student een probleem oplossen, en als het antwoord goed is, krijgt hij een beloning. Als het fout is, krijgt hij niets.

Het probleem is dat deze methode vaak vastloopt. De student leert goed de makkelijke en gemiddelde problemen, maar blijft steken bij de heel moeilijke vraagstukken. Waarom? Omdat de computer denkt: "Dit probleem is te moeilijk, we krijgen er toch geen goed antwoord op, dus waarom zouden we er tijd in steken?"

Dit artikel introduceert een nieuwe manier om te trainen, genaamd DARS (Depth-Breadth Synergy). Het lost dit op door twee dingen te combineren: Diepte en Breedte.

Hier is de uitleg in simpele taal met een paar creatieve analogieën:

1. Het Probleem: De "Gemiddelde" Valstrik

Stel je voor dat je een student laat oefenen met wiskunde.

De oude methode (GRPO): De student krijgt een stapel met 100 vragen. Hij probeert ze allemaal één keer. Als hij 10 vragen goed heeft, krijgt hij een sterretje.
Het probleem: De computer kijkt naar de resultaten en zegt: "Die 10 moeilijke vragen waren te lastig, hij kreeg ze nooit goed. Laten we die maar negeren en ons richten op de makkelijkere vragen waar hij wel een sterretje voor krijgt."
Het gevolg: De student wordt heel goed in makkelijkere vragen, maar leert nooit hoe hij de echte zware opgaven moet oplossen. Hij blijft steken op een bepaald niveau.

2. De Oplossing: Diepte (Depth) - "Meer tijd voor de zware opgaven"

De auteurs zeggen: "Nee, we moeten juist die moeilijke vragen meer aandacht geven!"

De Analogie: Stel je voor dat je een sporter traint. Als hij een lichte looptraining doet, hoeft hij niet lang te trainen. Maar als hij een zware berg beklimt (een moeilijk wiskundeprobleem), moet je hem niet gewoon een keer laten proberen en dan stoppen als hij valt. Je moet zeggen: "Probeer het opnieuw! En nog een keer! En nog een keer!"
Hoe DARS dit doet:
1. De computer doet eerst een snelle test: "Hoe goed gaat dit probleem?"
2. Als het probleem erg moeilijk is (de student krijgt het vaak fout), geeft de computer meer kansen. In plaats van 1 keer proberen, laat hij de student 10 of 20 keer proberen om die ene moeilijke vraag op te lossen.
3. Dit zorgt ervoor dat de computer meer informatie krijgt over hoe je die moeilijke vraag kunt oplossen, zelfs als het antwoord niet direct goed is. Het is alsof je de student meer tijd geeft om na te denken over de moeilijkste puzzels.

3. De Oplossing: Breedte (Breadth) - "Meer studenten in de klas"

De tweede verbetering gaat over hoeveel verschillende vragen je in één keer traint.

De Analogie: Stel je voor dat je een klas hebt.
- Kleine klas (oude methode): Je hebt maar 10 leerlingen. Als je de hele klas traint, is dat snel, maar de resultaten kunnen wisselend zijn. Soms is de leraar net even te streng of te mild door toeval.
- Grote klas (nieuwe methode): Je hebt nu 3000 leerlingen in de klas!
Hoe dit helpt: Door met een enorme groep te werken, wordt het gemiddelde resultaat veel stabieler. De "ruis" (toevallige fouten) verdwijnt. De student leert niet alleen van één specifieke vraag, maar ziet een heel breed spectrum aan voorbeelden. Dit helpt de student om sneller en betrouwbaarder de juiste oplossing te vinden bij de eerste keer proberen (dit noemen ze Pass@1).

4. De Synergie: Waarom beide nodig zijn

De grote ontdekking van dit onderzoek is dat Diepte en Breedte elkaar niet uitsluiten, maar juist versterken.

Diepte alleen: Je wordt heel goed in het oplossen van moeilijke problemen als je er lang over nadenkt (veel pogingen), maar je bent misschien nog steeds traag of onzeker bij de eerste poging.
Breedte alleen: Je bent snel en stabiel, maar je stopt bij de allerzwaarste problemen omdat je ze niet diep genoeg uitdiept.
DARS-Breedth (De combinatie): Je geeft de moeilijke problemen extra tijd (Diepte) én je traint met een enorm grote groep verschillende voorbeelden (Breedte).

Het resultaat: De student wordt niet alleen beter in het oplossen van de allerzwaarste wiskundeproblemen (Pass@K), maar wordt ook veel sneller en zekerder in het vinden van het juiste antwoord bij de eerste keer proberen (Pass@1).

Samenvatting in één zin

In plaats van de student te dwingen om alles in één keer perfect te doen, geeft deze nieuwe methode hem meer tijd om te worstelen met de moeilijke vragen en meer voorbeelden om van te leren, waardoor hij uiteindelijk een veel sterkere en slimmere "wiskundige" wordt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een krachtige methode om de redeneercapaciteiten van Large Language Models (LLMs) te verbeteren, vooral in domeinen zoals wiskunde en programmering. Echter, de huidige implementaties, met name die gebaseerd op het GRPO-algoritme (Group Relative Policy Optimization), hebben twee fundamentele beperkingen die de prestaties beperken:

Gebrek aan Diepte (Depth): Bestaande methoden vertonen een bias in de "cumulatieve voordeel" (cumulative advantage) berekening. Dit mechanisme onderbeloopt moeilijkere problemen met een lage nauwkeurigheid, omdat deze vaak geen correcte antwoorden genereren binnen een standaard aantal rollouts. Hierdoor leert het model niet de "diepe" redeneringspaden die nodig zijn voor complexe taken, wat de Pass@K prestaties (de kans dat een van de K gegenereerde antwoorden correct is) beperkt.
Gebrek aan Breedte (Breadth): Er is een onderbenutting van het effect van het vergroten van de batchgrootte (het aantal trainingsinstanties per iteratie). Simpele schaling van de rollout-grootte (meer pogingen per vraag) blijkt niet altijd effectief te zijn en kan zelfs schadelijk zijn voor Pass@1 (de nauwkeurigheid van het eerste antwoord). De auteurs stellen dat een grotere breedte essentieel is voor het handhaven van token-niveau entropie en het voorkomen van voortijdige convergentie.

Methodologie

De auteurs introduceren DARS (Difficulty Adaptive Rollout Sampling) en een gecombineerde aanpak DARS-Breadth om deze twee dimensies te optimaliseren.

1. Difficulty Adaptive Rollout Sampling (DARS)

DARS is een methode om de computercapaciteit dynamisch te herschikken naar moeilijke problemen. Het werkt in twee fasen:

Fase 1: Pre-rollout Schatting: Voor elke vraag wordt een lichte eerste fase uitgevoerd met een klein aantal rollouts ( $N_{pre}$ ) om de empirische nauwkeurigheid ( $\hat{a}_j$ ) te schatten. De moeilijkheidsgraad wordt gedefinieerd als $x_j = 1 - \hat{a}_j$ .
Fase 2: Multi-stage Rollout Her-evenwicht: Op basis van de geschatte moeilijkheid worden extra rollouts ( $\Delta n_j$ $Δ n_{j}$ ) toegewezen aan de moeilijkste vragen om de cumulatieve voordeel te verhogen. Er worden twee schema's voorgesteld:
- Equal-Treatment (ET): Streeft naar een gelijke cumulatieve voordeel voor alle vragen met een nauwkeurigheid onder de 0,5. Dit optimaliseert de Log-Odds van succes.
- Hardness-Weighted (HW): Wijs meer rollouts toe aan problemen met een lagere nauwkeurigheid in een lineaire relatie met de moeilijkheid. Dit benadert het Maximum Likelihood doel en is theoretisch verbonden met Maximum Likelihood Reinforcement Learning (MaxRL), maar met een lagere variantie.

2. Breedte Schaling (Breadth Scaling)

De auteurs identificeren dat het vergroten van de batchgrootte (van standaard 128 naar 3072) cruciaal is voor Pass@1. Omdat DARS leidt tot onregelmatige aantal rollouts per vraag (wat standaard PPO mini-batch updates verstoort), gebruiken ze full-batch updates over meerdere PPO-epochen.

Dit vermindert de ruis in de gradiëntrichting.
Het fungeert als een impliciete regularisatie die de token-entropie hoog houdt, waardoor het model blijft verkennen in plaats van voortijdig te convergeren.

3. DARS-Breadth Synergie

De uiteindelijke methode combineert DARS (voor diepte) met grote batchgrootte (voor breedte). Dit creëert een orthogonale en complementaire synergie: diepte verbetert Pass@K en breedte verbetert Pass@1.

Belangrijkste Bijdragen

Analyse van Cumulatieve Voordeel Bias: Het paper toont aan dat GRPO en zijn varianten systematisch zware, moeilijke problemen onderschatten, wat een plafond zet op de Pass@K prestaties.
DARS Introductie: Een nieuwe sampling-strategie die compute dynamisch toewijst aan moeilijke instanties. De auteurs tonen theoretisch aan dat het HW-schema equivalent is aan het optimaliseren van een Maximum Likelihood doel, maar met een veel lagere variantie dan bestaande MaxRL-methoden.
Diepte-Breedte Synergie: Het bewijs dat diepte (adaptieve exploratie) en breedte (schaal van trainingsinstanties) complementair zijn. DARS-Breadth levert simultane verbeteringen op zowel Pass@1 als Pass@K, wat eerder niet mogelijk leek met bestaande methoden.

Resultaten

De methoden zijn getest op modellen zoals Qwen2.5-Math (1.5B en 7B) en Llama-3.1-8B op benchmarks zoals MATH-500, AIME24, AMC23 en OlympiadBench.

Prestaties: DARS-Breadth behaalde consistent de beste resultaten.
- Voor Qwen2.5-Math-7B steeg Pass@1 (Avg@128) van 55.3 (baseline) naar 58.4, en Pass@128 van 81.4 naar 83.4.
- Voor Llama-3.1-8B was de verbetering op Pass@128 op AIME24 spectaculair: van 0.66 naar 1.46 (met DARS-HW-Breadth).
Efficiëntie: In tegenstelling tot het naïef verhogen van de rollout-grootte naar 32 (wat duur is en soms schadelijk), bereikt DARS betere prestaties met aanzienlijk minder rollouts per prompt (bijv. 12.8 i.p.v. 32 voor Qwen-1.5B), wat leidt tot snellere trainingstijden.
Test-Time Scaling: De modellen getraind met DARS tonen een sterkere verbetering bij test-time search (bijv. majority voting met K=16 of K=128), wat aangeeft dat het model een robuustere oplossingruimte heeft ontwikkeld.
Redeneerlengte: Modellen met DARS genereren langere en diepere redeneringspaden (thinking traces) voor moeilijke problemen, wat zichtbaar is in case studies waar DARS correcte antwoorden vindt die door de baseline worden gemist.

Betekenis en Impact

Dit paper biedt een fundamenteel inzicht in de beperkingen van huidige RLVR-methoden en biedt een praktische oplossing voor het doorbreken van het "capaciteitsplafond" van LLMs in redeneertaken.

Het weerlegt de aanname dat het simpelweg vergroten van de rollout-grootte altijd helpt; in plaats daarvan is adaptieve exploratie nodig.
Het benadrukt het belang van breedte (batchgrootte) voor het behoud van exploratie en het verbeteren van single-shot prestaties (Pass@1).
De combinatie van diepte en breedte biedt een pad naar zelf-evoluerende LLMs die zowel betrouwbaar zijn in één keer (Pass@1) als extreem capabel bij intensieve zoektochten (Pass@K), wat essentieel is voor de volgende generatie AI-systemen in wetenschap en engineering.