Post-Training with Policy Gradients: Optimality and the Base Model Barrier

Each language version is independently generated for its own context, not a direct translation.

Titel: Het Versterken van een Taalmodel: Waarom "Oefenen" Niet Altijd Werkt (en hoe we het kunnen oplossen)

Stel je voor dat je een zeer slimme, maar nog onvoltooide kunstenaar hebt. Deze kunstenaar is jarenlang getraind op duizenden schilderijen (dit is het basismodel of pre-training). Hij kan prachtige landschappen en portretten maken, maar hij heeft nog nooit een ruimtevaartuig geschilderd, omdat er geen voorbeelden van in zijn trainingsmateriaal zaten.

Nu wil je hem leren om ruimtevaartuigen te schilderen. Je hebt een "jury" (de beloning of reward) die alleen zegt: "Ja, dat is een goed ruimtevaartuig" of "Nee, dat is het niet." Je geeft de kunstenaar geen stap-voor-stap instructies, alleen het eindoordeel. Dit noemen we Outcome Reward (beloning op basis van het eindresultaat).

Deze paper onderzoekt wat er gebeurt als je deze kunstenaar laat oefenen met deze jury.

1. Het Probleem: De "Onzichtbare Muur"

De auteurs ontdekken een groot probleem. Als de kunstenaar al een klein beetje kans heeft om een ruimtevaartuig te schilderen (bijvoorbeeld 1 op de 1000 pogingen), kan hij met veel oefening en feedback van de jury dit verbeteren tot bijna 100%.

Maar, als de kunstenaar nooit eerder een ruimtevaartuig heeft geschilderd (de kans is 0 of extreem klein, bijna nul), dan stuit hij op een muur.

De Analogie: Stel je voor dat je in een donker lokaal staat en je moet een specifieke, onbekende knop vinden op een muur met 1 miljard knoppen. Als je willekeurig drukt, duurt het eeuwen voordat je de juiste vindt.
De bevinding: Zelfs als je de kunstenaar oneindig veel tijd geeft om te oefenen met alleen de eindjury, kan hij de "ruimtevaartuigen" (de antwoorden die buiten zijn bestaande kennis vallen) nooit leren te maken. Hij blijft vastzitten in wat hij al kent. De paper noemt dit de "Base Model Barrier" (de barrière van het basismodel).

2. De Oplossing: De "Tussenstap-Jury" (Process Rewards)

Hoe los je dit op? De auteurs stellen een slimme truc voor: in plaats van alleen te kijken naar het eindresultaat, geef je de kunstenaar feedback na elke penseelstreek.

De Analogie: In plaats van pas te zeggen "Dit is geen goed ruimtevaartuig" als het hele schilderij klaar is, zegt de jury na elke streek: "Goed, dat lijken de vleugels," of "Nee, die lijn hoort niet zo." Dit noemen ze Process Rewards (procesbeloning).
Het Effect: Hierdoor hoeft de kunstenaar niet meer blind te zoeken in de duisternis. Hij kan stap voor stap controleren of hij op de goede weg is.
Het Resultaat: Met deze methode kan de kunstenaar wel degelijk leren om ruimtevaartuigen te schilderen, zelfs als hij ze nooit eerder heeft gezien. Hij breekt door de muur heen. De paper toont wiskundig aan dat dit veel efficiënter is en niet vastloopt in de "barrière".

3. De Wiskundige "Rekenmachine" (De Kwantile)

De auteurs gebruiken een term die ze "Likelihood Quantile" noemen.

Simpele uitleg: Stel je voor dat je een lijst hebt van alle mogelijke antwoorden die de kunstenaar kan geven, gesorteerd van "meest waarschijnlijk" tot "minst waarschijnlijk". De Quantile zegt: "Hoe goed is de kunstenaar in het vinden van het juiste antwoord binnen de top X% van zijn eigen ideeën?"
De conclusie: Als de kunstenaar het juiste antwoord niet in zijn "top 100%" heeft staan (het is te exotisch voor hem), dan kan hij het met alleen eindbeloning nooit leren. Maar met tussenstap-beloning (proces) kan hij het wel vinden, omdat hij de weg kan afleggen in kleine, beheersbare stukjes.

4. Wat betekent dit voor de toekomst?

Deze paper is belangrijk voor de ontwikkeling van AI (zoals Chatbots of AI die wiskunde oplost):

Niet alles is mogelijk: Als een AI-model een vraag niet kan beantwoorden omdat het antwoord volledig buiten zijn trainingsdata valt, helpt "gewoon oefenen" met alleen een ja/nee-score niet. Je kunt geen nieuwe kennis creëren uit het niets als je basis te zwak is.
Stap-voor-stap is beter: Om AI echt slimmer te maken en nieuwe dingen te leren, moeten we niet wachten op het eindantwoord. We moeten AI helpen om de weg naar het antwoord te controleren (zoals een leraar die meekijkt tijdens het rekenen, niet pas als het antwoord op het bord staat).

Samenvattend:
Je kunt een kunstenaar niet leren een nieuw onderwerp te schilderen door alleen te zeggen "Fout" of "Goed" als het schilderij klaar is als hij nog nooit zo'n onderwerp heeft gezien. Je moet hem helpen door te zeggen: "Goede streek, maar die lijn is scheef," zodat hij stap voor stap de nieuwe vaardigheid kan opbouwen. De paper bewijst wiskundig dat deze "stap-voor-stap" methode de enige manier is om de grenzen van het basismodel te doorbreken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Post-Training with Policy Gradients: Optimality and the Base Model Barrier" in het Nederlands.

Titel: Post-Training met Policy Gradients: Optimaliteit en de Barrière van het Basismodel

Auteurs: Alireza Mousavi-Hosseini en Murat A. Erdogdu
Datum: 10 maart 2026

1. Probleemstelling

Het artikel onderzoekt de theoretische grenzen van het post-training (verfijnen) van autoregressieve taalmodellen (LLMs) met behulp van Reinforcement Learning (RL), specifiek via Policy Gradient (PG) methoden.

De centrale vraag is: In welke mate kan RL post-training een model laten presteren buiten het bereik (support) van het oorspronkelijke basismodel, en wat zijn de kosten (in termen van reward queries en iteraties) hiervoor?

Er wordt onderscheid gemaakt tussen twee scenario's:

Outcome Rewards (ORM): De beloning wordt pas gegeven na het genereren van de volledige respons (bijv. "is het antwoord correct?"). Dit vormt een contextueel bandiet-probleem.
Process Rewards (PRM): De beloning wordt gegeven na elke gegenereerde token (stap-voor-stap verificatie).

Het paper stelt dat er een fundamentele "barrière" bestaat voor het verbeteren van samples die onder het basismodel een zeer lage waarschijnlijkheid hebben (off-support), vooral bij gebruik van Outcome Rewards.

2. Methodologie en Model

De auteurs analyseren lineaire autoregressieve modellen onder een $\gamma$ -marge-voorwaarde (een uitbreiding van lineaire scheidbaarheid naar sequenties).

Model: $p_w(y|x) = \prod_{i=1}^N p_w(y_i | x, y_{1:i-1})$ , waarbij de feature map $\phi$ gefixeerd is en alleen de laatste lineaire laag wordt getraind.
Aannames: Er bestaat een optimale parameter $w^*$ die de juiste respons $y^*(x)$ met een marge $\gamma$ scheidt van andere tokens.
Algoritmen:
- Pre-training: Stochastic Gradient Descent (SGD) met constante of adaptieve leerstappen (learning rates).
- Post-training: Policy Gradient (PG) varianten (zoals REINFORCE, PPO, GRPO) met zowel Outcome Rewards als Process Rewards.
- Exploratie-strategie: Het gebruik van een "Best-of-m" exploratie-algoritme om de juiste respons te vinden door meerdere samples te trekken.

3. Belangrijkste Bijdragen

A. Analyse van Outcome Rewards (ORM) en de "Base Model Barrier"

Conditionele Convergentie: Als het basismodel al een niet-triviale waarschijnlijkheid $\alpha$ heeft voor een correct antwoord, kan PG de waarschijnlijkheid naar $1-\epsilon $brengen met een aantal iteraties van$ \tilde{O}((\alpha^{-1} + \epsilon^{-1})/\gamma^2)$.
De Barrière: Voor samples waar het basismodel een zeer lage waarschijnlijkheid heeft (bijv. uniform verdeeld, $\alpha \approx k^{-N}$ ), vereist het verbeteren van de prestaties een exponentieel aantal reward queries in de lengte van de sequentie $N$ .
Likelihood Quantile (LQ): De auteurs introduceren de Likelihood Quantile $Q_q(\epsilon)$ $Q_{q} (ϵ)$ , een eigenschap van het basismodel die aangeeft hoeveel samples een waarschijnlijkheid groter dan een bepaalde drempel hebben.
- Om de verwachte testfout onder een drempel $\epsilon$ te krijgen, hangt het aantal benodigde queries af van $Q_q(\epsilon)^{-1}$ .
- Voor een met SGD getraind basismodel is de LQ exponentieel klein voor $N \gg 1$ , wat betekent dat PG niet efficiënt verder kan gaan dan de fout van het SGD-model zonder exponentiële kosten.

B. Oplossing via Process Rewards (PRM)

Token-Level Likelihood Quantile (Token-Level LQ): Door gebruik te maken van process rewards (verificatie na elke token), verandert de complexiteit. De afhankelijkheid van de totale sequentielengte $N$ wordt verbroken.
Resultaat: Het aantal reward queries hangt nu lineair af van $N$ $N$ en van de Token-Level Likelihood Quantile ( $Q^{TL}_q$ $Q_{q}^{T L}$ ).
- Voor een uniform beleid is $Q^{TL}_q(\epsilon) = k^{-1}$ (onafhankelijk van $N$ ), terwijl bij ORM dit $k^{-N}$ is.
- Dit stelt het model in staat om buiten het oorspronkelijke support te gaan met een polynoomiale (in plaats van exponentiële) complexiteit in $N$ .

C. Ondergrenzen (Lower Bounds) en Optimaliteit

De auteurs bewijzen dat hun gevonden boven- en ondergrenzen minimax optimaal zijn.
Theorema 12: Er bestaat geen pre-training algoritme (inclusief SGD) dat met een polynoomiaal aantal samples een LQ kan bereiken die exponentieel beter is dan $k^{-N}$ , tenzij het aantal samples zelf al exponentieel groot is.
Dit betekent dat de "barrière" niet een artefact is van de analyse, maar een fundamentele beperking van post-training met Outcome Rewards.

D. Online Learning Resultaten

Het paper toont aan dat een variant van PG met een uniform gedragbeleid (behavior policy) een minimax optimale foutbound van $\tilde{O}(k^N/\gamma^2)$ bereikt in online learning.
Dit lost een open vraag op uit eerdere literatuur over efficiënte online algoritmen voor multiclass classificatie met bandit feedback.

4. Belangrijkste Resultaten

Outcome Rewards:
- Effectief voor samples op het support van het basismodel (waar $\alpha$ niet te klein is).
- Faalt voor samples buiten het support: vereist exponentieel veel queries ( $\sim k^N$ ) om de fout significant te verlagen.
- De prestaties worden begrensd door de Likelihood Quantile van het basismodel.
Process Rewards:
- Verwijdert de "curse of dimensionality" in $N$ .
- Vereist slechts $\tilde{O}((Nk + \epsilon^{-1})/\gamma^2)$ queries in het ergste geval.
- Maakt het mogelijk om het basismodel te overtreffen voor samples die anders onbereikbaar zouden zijn.
SGD vs. PG:
- Als het basismodel al getraind is met SGD, kan PG met Outcome Rewards de testfout niet significant verbeteren zonder exponentiële kosten.
- Process Rewards bieden de enige theoretisch onderbouwde weg om dit te omzeilen.

5. Significatie en Conclusie

Dit artikel biedt een rigoureuze theoretische onderbouwing voor de empirische observatie dat RL post-training (zoals RLHF) vaak de verdeling van het basismodel "verscherpt" (sharpening) maar geen echt nieuwe kennis creëert die volledig buiten het bereik van het basismodel ligt.

Theoretische Inzicht: Het introduceert de Likelihood Quantile als een cruciale maatstaf voor de bruikbaarheid van een basismodel voor RL post-training.
Praktische Implicatie: Het bevestigt dat voor complexe taken (zoals wiskunde of code, waar de kans op een volledig correct antwoord vanuit een willekeurige start klein is), process supervision (stap-voor-stap feedback) essentieel is om de beperkingen van outcome supervision te overwinnen.
Optimaliteit: Het bewijst dat er geen "wonder-algoritme" bestaat dat de barrière van het basismodel met Outcome Rewards kan doorbreken zonder exponentiële kosten; de enige oplossing is het gebruik van fijnere feedback (process rewards).

Kortom, de paper legt de wiskundige grenzen bloot van RL post-training en onderstreept het fundamentele belang van proces-verificatie voor het genereren van complexe, nieuwe kennis in taalmodellen.