Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar nog wat onervaren robot (een Large Language Model) traint om moeilijke wiskundepuzzels op te lossen. Je wilt dat hij leert door te proberen, fouten te maken en uit die fouten te leren. Dit proces noemen we Versterkend Leren met Verifieerbare Beloningen (RLVR).

Het probleem is dat deze robot vaak in twee uitersten terechtkomt, alsof hij op een schommel zit die uit de hand loopt:

De "Angstige Robot" (Entropie-instorting): De robot wordt te snel zeker van zichzelf. Hij stopt met proberen nieuwe dingen en herhaalt steeds hetzelfde saaie antwoord, zelfs als het niet perfect is. Hij "bevroert" in zijn leerproces.
De "Drukke Aap" (Entropie-explosie): De robot wordt te ongeduldig en chaotisch. Hij begint te raden, te hopen en te gissen. Hij probeert zo veel mogelijk rare dingen, maar leert daardoor niets nuttigs. Het is alsof hij in een kamer rent en tegen alles aanloopt zonder te weten wat hij doet.

De meeste bestaande methoden proberen alleen de "Angstige Robot" te voorkomen, maar vergeten dat de "Drukke Aap" net zo gevaarlijk is.

De Oplossing: QAE (De Kwaliteitscontroleur)

De auteurs van dit paper hebben een nieuwe methode bedacht genaamd Quantile Advantage Estimation (QAE). Laten we dit uitleggen met een simpele analogie: De Klas met de Leraar.

Het Oude Probleem: De Gemiddelde Leraar

Stel je een klas voor waar de leraar de prestaties van de leerlingen beoordeelt.

Hoe het nu werkt (Gemiddelde): De leraar kijkt naar de gemiddelde score van de hele klas.
Het probleem: Als er één genie in de klas zit die een perfect cijfer haalt, schuift dat de gemiddelde score enorm omhoog.
- Gevolg: Een leerling die een heel goed, maar niet perfect cijfer haalt, krijgt nu een "negatieve" beoordeling omdat hij onder het nieuwe, onrealistisch hoge gemiddelde zit. De leraar straft de goede leerling af!
- Dit zorgt voor chaos: de robot (leerling) raakt in paniek, probeert alles maar dan ook (explosie), of geeft helemaal op (instorting).

De Nieuwe Methode: De K-Quantiel Leraar (QAE)

De nieuwe methode vervangt die onbetrouwbare "gemiddelde" door een slimme Kwaliteitscontroleur die een vaste lijn trekt.

Stel je voor dat de leraar zegt: "Ik kijk niet naar het gemiddelde, maar naar de top 40% (of een ander percentage) van de prestaties."

Deze controleur werkt in twee scenario's, afhankelijk van hoe moeilijk de vraag is:

Bij moeilijke vragen (De "Hard" Regime):
- De meeste leerlingen zakken. De controleur kijkt alleen naar de enige leerlingen die het wél hebben gelukt.
- Analogie: Als het een heel moeilijke puzzel is, zegt de leraar: "Jij hebt het opgelost? Fantastisch! Jij krijgt een sterretje." De anderen krijgen geen straf, maar ook geen sterretje. Ze worden genegeerd.
- Effect: De robot leert van de zeldzame successen en probeert die te herhalen, zonder zich te laten verwarren door de mislukkingen van de rest.
Bij makkelijke vragen (De "Easy" Regime):
- De meeste leerlingen halen het wel. De controleur kijkt nu alleen naar de leerlingen die het nog niet hebben gelukt.
- Analogie: Als het een heel simpele som is, zegt de leraar: "Jij hebt het fout? Dat is jammer, probeer het nog eens." Degenen die het goed hebben, krijgen geen extra aandacht (geen sterretje, geen straf).
- Effect: De robot focust zich op het verbeteren van de fouten, in plaats van te blijven hangen in het herhalen van wat hij al weet.

Waarom is dit zo slim?

Het is een "Aan/Uit" schakelaar: In plaats van elke kleine fout of elk klein succes te belonen of straffen, kijkt QAE alleen naar de belangrijkste momenten. Ongeveer 80% van de antwoorden krijgt geen enkele reactie (geen sterretje, geen straf). Dit houdt de robot rustig en gefocust op de echte leermomenten.
Het voorkomt chaos én starheid: Door slim te kiezen wanneer je de robot aanmoedigt en wanneer je hem corrigeert, blijft hij precies in het "gouden midden". Hij is niet te angstig en niet te wild.
Het werkt met bestaande systemen: Je hoeft de hele robot niet te vervangen. Je vervangt alleen de manier waarop de leraar de scores berekent. Het is alsof je de rekenmachine van de leraar vervangt door een slimmere versie, terwijl de rest van de klas hetzelfde blijft.

Het Resultaat

In de praktijk betekent dit dat de robot:

Minder tijd verspillen aan het raden van onzinnige antwoorden.
Sneller en stabieler leert om moeilijke wiskundepuzzels op te lossen.
Consistent betere resultaten behaalt op toetsen (zoals AIME en AMC), zonder dat hij "vastloopt" of "uit elkaar valt".

Kortom: QAE is de slimme leraar die weet dat niet elke fout een straf verdient en niet elk succes een applaus, maar die precies weet wanneer hij moet ingrijpen om de robot optimaal te laten groeien.

Each language version is independently generated for its own context, not a direct translation.

Titel: Quantile Advantage Estimation (QAE): Stabilisatie van RLVR voor Redenering van LLM's

1. Het Probleem: Het Entropie-Dilemma in RLVR

Reinforcement Learning met Verifieerbare Beloningen (RLVR) is een krachtige methode om de redeneercapaciteiten van Large Language Models (LLM's) te verbeteren. Echter, het trainingsproces is vaak onstabiel en oscilleert tussen twee schadelijke extremen:

Entropie-inzakking (Entropy Collapse): De beleidsverdeling wordt te vroeg deterministisch, wat exploratie onderdrukt en de prestaties beperkt. Bestaande methoden (zoals GRPO en DAPO) richten zich vaak op het voorkomen hiervan.
Entropie-explosie (Entropy Explosion): De entropie groeit ongecontroleerd, wat leidt tot inefficiënte exploratie, ruis in de leergradiënten en een stagnatie van de prestaties.

De auteurs identificeren dat beide problemen voortkomen uit het gebruik van een gemiddelde-baseline (mean-baseline) in waarde-vrije RL-methoden. Wanneer er uitbijters in de beloning zijn (bijv. een paar zeer hoge beloningen), inflateert de gemiddelde baseline. Hierdoor worden competent antwoorden die net onder dit gemiddelde vallen, onterecht bestraft als "negatieve advantage" samples. Dit leidt tot over-exploratie (explosie) in de vroege fase en een gebrek aan exploitatie in de latere fase. Bestaande token-level heuristieken (zoals 'Clip-Higher') loss dit fundamentele probleem niet op en kunnen zelfs leiden tot een homogenisatie van het redeneergedrag.

2. Methodologie: Quantile Advantage Estimation (QAE)

De kern van de oplossing is het vervangen van de gemiddelde baseline door een groepsgewijze K-quantiel-baseline.

Het Mechanisme: Voor een query $q$ $q$ met een groep van $G$ $G$ antwoorden en een empirische succesrate $p(q)$ $p (q)$ , wordt de baseline $b_K(q)$ $b_{K} (q)$ bepaald door de $K$ $K$ -quantiel van de verdeling van de beloningen.
- Voor binaire beloningen (0 of 1) fungeert dit als een drempelwaarde:
  - Als $p(q) \leq 1-K$ (moeilijke queries): De baseline is 0. Alleen zeldzame succesvolle antwoorden ( $R=1$ ) krijgen een positieve advantage; fouten krijgen 0. Dit stimuleert exploitatie van zeldzame successen.
  - Als $p(q) > 1-K$ (makkelijke queries): De baseline is 1. Alleen resterende fouten ( $R=0$ ) krijgen een negatieve advantage; successen krijgen 0. Dit stimuleert exploratie om resterende fouten op te lossen.
Sparsiteit: Een belangrijk gevolg is dat ongeveer 80% van de antwoorden een advantage van 0 krijgt. Updates worden dus alleen toegepast op de meest informatieve samples (zeldzame successen op moeilijke vragen of fouten op makkelijke vragen).
Theoretische Garantie: De auteurs bewijzen een tweezijdige entropie-veiligheid onder eerste-orde softmax-updates:
- In het regime van lage succeskans ( $p \leq 1-K$ ) minimaliseert de quantiel-baseline de entropietoename (voorkomt explosie).
- In het regime van hoge succeskans ( $p > 1-K$ ) maximaliseert het de entropietoename (voorkomt inzakking).
  Dit biedt een bewezen garantie dat de entropie binnen een productieve range blijft, in tegenstelling tot token-level controles die dit niet kunnen garanderen.

3. Belangrijkste Bijdragen

Identificatie van de Oorzaak: Het paper traceert de instabiliteit in RLVR (zowel collapse als explosion) naar het ontwerp van de baseline (gemiddelde vs. quantiel) in plaats van naar token-level hyperparameters.
QAE Algoritme: Een minimale modificatie (een "drop-in" vervanging van de mean-baseline) die een response-level gate implementeert. Dit reguleert dynamisch de exploratie-exploitatie balans via de parameter $K$ .
Theoretisch Bewijs: Een wiskundig bewijs voor tweezijdige entropie-veiligheid, wat aantoont dat QAE de entropie-change per stap binnen strikte grenzen houdt.
Sparsiteit: Het introduceren van een "80/20 regel" waarbij 80% van de updates wordt genegeerd, wat de rekenefficiëntie verhoogt en de focus legt op de meest leerzame voorbeelden.

4. Resultaten

De methode is getest op de Qwen3-8B-Base en Qwen3-30B-A3B-Base modellen op wiskundige redeneerbenchmarks (AIME'24, AIME'25, AMC'23).

Prestatieverbetering: QAE levert consistente verbeteringen op in pass@1 (de kans dat het eerste antwoord correct is) zonder pass@16 (de kans dat een van de 16 samples correct is) significant te verlagen.
- Op Qwen3-8B-Base met DAPO+Clip-Higher: Pass@1 op AIME'24 steeg van 39.69 naar 48.23 (+21.5%).
- De methode werkt compatibel met bestaande technieken zoals Clip-Cov, KL-Cov en GSPO.
Stabiliteit: In tegenstelling tot de baseline (DAPO), die een entropiepiek vertoont rond stap 100 gevolgd door een plateau in prestaties, stabiliseert QAE de entropie en zorgt voor een continue verbetering van de prestaties.
Dynamiek: De analyse toont aan dat QAE zorgt voor een gezonde co-groei van "aha-moment" tokens (exploratieve tokens) en redeneernauwkeurigheid, terwijl de baseline leidt tot een homogenisatie van het gedrag.

5. Betekenis en Impact

Dit paper verschuift de focus van token-level heuristieken naar baseline-design als de primaire mechanisme voor het schalen van RLVR.

Fundamenteel Inzicht: Het toont aan dat het reguleren van de entropie niet hoeft te gebeuren via complexe token-level clipping, maar via een slimme keuze van de referentiewaarde (baseline) op query-niveau.
Scalabiliteit: De methode is robuust over verschillende modelgroottes (van 8B tot 30B+) en biedt een veilige manier om RLVR te schalen zonder dat de training instabiel wordt.
Efficiëntie: Door de sparsiteit (80% van de samples krijgt geen update) wordt de computerefficiëntie verbeterd, wat cruciaal is voor het trainen van grote modellen.

Kortom, QAE biedt een elegante, theoretisch onderbouwde en empirisch bewezen oplossing voor het stabiliseren van RLVR-training, waardoor LLM's betrouwbaarder en effectiever kunnen leren redeneren.

Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

De Oplossing: QAE (De Kwaliteitscontroleur)

Het Oude Probleem: De Gemiddelde Leraar

De Nieuwe Methode: De K-Quantiel Leraar (QAE)

Waarom is dit zo slim?

Het Resultaat

Titel: Quantile Advantage Estimation (QAE): Stabilisatie van RLVR voor Redenering van LLM's

1. Het Probleem: Het Entropie-Dilemma in RLVR

2. Methodologie: Quantile Advantage Estimation (QAE)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Pramana: Fine-Tuning Large Language Models for Epistemic Reasoning through Navya-Nyaya

Operational Noncommutativity in Sequential Metacognitive Judgments

Proximity Measure of Information Object Features for Solving the Problem of Their Identification in Information Systems

ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback

Algebraic Structure Discovery for Real World Combinatorial Optimisation Problems: A General Framework from Abstract Algebra to Quotient Space Learning