LLM Reasoning with Process Rewards for Outcome-Guided Steps

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms wat verwaande student hebt die wiskundeproblemen oplost. Deze student (de AI) is geweldig in het schrijven van lange, logisch klinkende zinnen, maar hij maakt soms slordige fouten in de laatste stap, waardoor het hele antwoord verkeerd is.

In het verleden leerden we deze student alleen door te kijken naar het eindantwoord. Als het goed was, kreeg hij een sterretje. Als het fout was, kreeg hij een rode kruis. Het probleem? Als de student een heel lang, ingewikkeld probleem oplost, weet hij niet waar hij precies fout ging. Hij krijgt pas aan het einde te horen dat hij faalde, maar niet hoe hij dat had kunnen voorkomen.

Om dit op te lossen, hebben onderzoekers een nieuwe methode bedacht, genaamd PROGRS. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het probleem: De "Fluente Fout"

Stel je voor dat de student een reisplanning maakt. Hij schrijft een prachtig verhaal over hoe hij door de Alpen reist, met prachtige beschrijvingen van de bloemen en het weer. Het verhaal is vloeiend, logisch en klinkt geweldig. Maar aan het einde blijkt dat hij vergeten is dat de brug gesloten was, en hij dus eigenlijk niet had kunnen reizen.

Een oude manier van belonen (de "Process Reward Model" of PRM) keek alleen naar het verhaal. Omdat het verhaal zo mooi was, gaf de leraar hem een hoge score, zelfs al was de reisplanning onmogelijk. De student leerde hierdoor: "Als ik maar mooi schrijf, krijg ik een hoge score, zelfs als ik het antwoord fout heb." Dit noemen ze "reward hacking" (beloning hacken).

2. De oplossing: PROGRS (De Nieuwe Leraar)

De auteurs van dit paper, Mohammad Rezaei en zijn team, hebben een nieuwe manier bedacht om de student te trainen. Ze noemen hun methode PROGRS. Het idee is simpel maar krachtig: Het eindantwoord is de koning, maar het verhaal helpt de onderdanen.

Hier zijn de twee belangrijkste trucs die ze gebruiken:

Truc A: De "Nul-lijn" voor fouten (Outcome-Conditioned Centering)

Stel je voor dat de leraar de antwoorden in twee groepen verdeelt:

De Goede Groep: Antwoorden die correct zijn.
De Foute Groep: Antwoorden die verkeerd zijn.

In de oude methode kregen de foute antwoorden soms nog steeds hoge scores omdat ze "mooi" geschreven waren. Dat was gevaarlijk.
Bij PROGRS doet de leraar iets slims: Hij trekt de gemiddelde score van de foute groep af.

Als een fout antwoord een hoge score krijgt omdat het mooi klinkt, maar de rest van de foute groep ook hoog scoort, dan wordt die score "genormaliseerd" naar nul.
De leraar zegt: "Jullie zijn allemaal fout. Het maakt niet uit hoe mooi jullie verhaal is; jullie krijgen geen extra punten ten opzichte van elkaar."
Alleen als een fout antwoord beter is dan de andere fouten (bijvoorbeeld: het bevat een slimme tussenstap die wel klopt), krijgt het een klein plusje.

Dit zorgt ervoor dat de student niet probeert om "mooie fouten" te schrijven, maar echt probeert om het juiste antwoord te vinden.

Truc B: De "Zenuwachtige Student" Detector (Coherence Evaluator)

Soms schrijft de student een zin die klinkt alsof hij het weet, maar de volgende zin is totaal onlogisch. Alsof hij plotseling van onderwerp verandert.
De nieuwe methode kijkt niet alleen naar de scores, maar ook naar de rustigheid van het verhaal.

Als de scores van stap tot stap wild heen en weer springen (zoals een zenuwachtige student die twijfelt), krijgt het antwoord een straf.
De leraar zegt: "Je bent niet zeker van je zaak. Je verhaal is te onrustig."
Dit helpt de student om een rustig, consistent denkproces te ontwikkelen, in plaats van te gokken.

Waarom is dit zo goed?

De onderzoekers hebben dit getest op moeilijke wiskundetoetsen (zoals de Olympiades). Het resultaat?

Minder rollen: De student leert sneller. Hij heeft minder pogingen nodig om het goed te krijgen dan bij de oude methoden.
Beter resultaat: Hij maakt minder fouten en geeft vaker het juiste antwoord (bijvoorbeeld 74,9% goed in plaats van 69,7%).
Veilig: De methode zorgt ervoor dat de AI niet "raakt" door slimme maar verkeerde antwoorden te geven.

Samenvatting in één zin

PROGRS is als een leraar die zegt: "Het maakt niet uit hoe mooi je verhaal is; als het antwoord fout is, tellen die mooie zinnen niet mee. Maar als je wel een slimme stap zet binnen een fout antwoord, dan help ik je die stap te herkennen, zodat je de volgende keer het hele antwoord goed krijgt."

Dit maakt de AI slimmer, sneller en betrouwbaarder in het oplossen van complexe problemen.

Each language version is independently generated for its own context, not a direct translation.

Titel: LLM Redeneren met Procesbeloningen voor Uitkomstgeleide Stappen (PROGRS)

1. Het Probleem

Grote Taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt in wiskundig redeneren dankzij versterking met leren (RL) met verifieerbare beloningen (RLVR). In deze aanpak wordt de uiteindelijke juistheid van een antwoord geautomatiseerd gecontroleerd en gebruikt als trainingsignaal.

Echter, er zijn twee fundamentele beperkingen:

Schaarse feedback: Bij lange, meerstapsoplossingen biedt een beloning die alleen gebaseerd is op het eindresultaat (outcome-only) te weinig feedback voor de tussenstappen.
Misalignatie van Procesbeloningsmodellen (PRM's): Om dit op te lossen, worden Procesbeloningsmodellen (PRM's) gebruikt om tussenstappen te scoren. In de praktijk zijn deze scores echter niet perfect gecorreleerd met de uiteindelijke juistheid. Een PRM kan een lokaal vloeiende en coherente redenering hoog scoren, zelfs als deze tot een foutief eindantwoord leidt.
Gevaren: Als deze PRM-scores direct worden gebruikt als absolute beloningen, kan dit leiden tot "reward hacking" (het model leert om de PRM te misleiden in plaats van het probleem op te lossen), instabiele policy-updates en het versterken van foutieve redeneerpatronen. Bestaande methoden filteren data of verbeteren de PRM-kwaliteit, maar ze beperken niet direct hoe procesbeloningen interageren met de uitkomstcorrectheid tijdens de optimalisatie.

2. Methodologie: PROGRS

De auteurs stellen PROGRS (Process-Reward Outcome-Guided Reasoning Steps) voor. Dit is een raamwerk dat PRM's integreert in RLVR, maar waarbij de uitkomstcorrectheid (final answer) altijd de dominante signalering blijft.

De kernfilosofie is dat procesbeloningen moeten fungeren als relatieve voorkeuren binnen groepen gedefinieerd door de uitkomstkwaliteit, en niet als absolute optimalisatiedoelen.

De drie belangrijkste componenten van PROGRS:

Uitkomst-geconditioneerde centrering (Outcome-Conditioned Centering):
- Dit is het belangrijkste mechanisme om bias te verwijderen.
- Voor een groep van $K$ gegenereerde oplossingen per prompt, worden de PRM-scores van de foutieve oplossingen gecentreerd rond nul.
- Formeel: Als een traject fout is ( $r_{outcome}=0$ ), wordt de gemiddelde PRM-score van alle foutieve trajecten in die groep ( $\mu_{incorrect}$ ) afgetrokken van de individuele scores.
- Effect: Foutieve trajecten krijgen geen systematische positieve bonus meer, maar hun onderlinge rangorde (welke foutieve oplossing is "beter" dan een andere) blijft behouden. Correcte trajecten behouden hun originele scores.
Gecalibreerde PRM met Coherentie-evaluatie:
- Er wordt een bevroren quantile-regressie PRM gebruikt (geen extra fine-tuning) om stap-voor-stap scores te genereren.
- Om de stabiliteit te verhogen, wordt een hieraarchische multi-schaal coherentie-evaluator toegepast. Deze analyseert vensters van opeenvolgende stappen.
- Als de PRM-scores binnen een venster sterk fluctueren (hoge variantie), wordt de score voor dat venster bestraft (verlaagd) via een exponentiële straffunctie. Dit straft onstabiel of "zenuwachtig" redeneren af, zelfs als de gemiddelde score hoog is.
Integratie in GRPO:
- De uiteindelijke voordeel-waarde (advantage) voor de policy update wordt berekend als de som van de genormaliseerde uitkomst-voordeel en de gecentreerde procesbonus.
- Dit gebeurt binnen het Group Relative Policy Optimization (GRPO) raamwerk, zonder extra trainbare componenten.
- De formule is: $A_{final} = A_{outcome} + \lambda_{PRM} \cdot \tilde{S}_{PRM}$ , waarbij $\tilde{S}_{PRM}$ de gecentreerde en coherentie-gecorrigeerde score is.

3. Belangrijkste Bijdragen

Uitkomst-geconditioneerde centrering: Een praktisch mechanisme om PRM's veilig te integreren in RLVR door systematische bias op foutieve trajecten te elimineren, terwijl nuttige relatieve informatie behouden blijft.
Coherentie-evaluator: Een nieuw mechanisme dat lokale instabiliteit in redenering detecteert door fluctuaties in PRM-scores te straffen, wat leidt tot stabielere trainingsignalen.
Empirische validatie: Het aantonen dat deze combinatie binnen GRPO leidt tot betere prestaties op diverse wiskundige benchmarks zonder de noodzaak van extra trainbare modellen of complexe architecturale wijzigingen.

4. Resultaten

De methode is getest op zes wiskundige benchmarks: MATH-500, AMC, AIME, MinervaMath en OlympiadBench.

Prestatieverbetering: PROGRS verbetert consistent de Pass@1 nauwkeurigheid ten opzichte van baselines die alleen op uitkomsten vertrouwen (zoals DAPO).
- Voorbeeld MATH-500: PROGRS-8 bereikt 74.9% vs. 69.7% voor de baseline.
- Voorbeeld AMC 2023: PROGRS-8 bereikt 59.0% vs. 52.0% voor de baseline.
Efficiëntie: PROGRS bereikt deze resultaten met minder rollouts (bijv. PROGRS-4 presteert vergelijkbaar met of beter dan DAPO-16). Dit wijst op een betere sample-efficiency.
Token-efficiëntie: Het model genereert vaak kortere, maar kwalitatief betere oplossingen, wat aangeeft dat de verbetering niet komt door het genereren van langere, "gebladerde" antwoorden.
Ablatiestudies:
- Zonder centrering ("No Centering") daalt de prestatie aanzienlijk (bijv. MATH-500 daalt naar 67.78%), wat bevestigt dat het voorkomen van reward hacking cruciaal is.
- Zonder coherentie-straf ( $\alpha_{coh}=0$ ) daalt de prestatie ook, maar minder drastisch. Dit toont aan dat coherentie vooral dient om de stabiliteit te verhogen en lokale fluctuaties te onderdrukken.

5. Betekenis en Conclusie

PROGRS lost een fundamenteel probleem op in het trainen van LLM's voor wiskundig redeneren: hoe maak je gebruik van rijke, stap-voor-stap feedback zonder de zekerheid van het eindantwoord te ondermijnen.

Veiligheid: Door PRM-scores te behandelen als relatieve voorkeuren binnen foutgroepen in plaats van absolute beloningen, voorkomt het dat het model leert om "flinke maar foutieve" redeneringen te produceren.
Simpelheid: De methode vereist geen nieuwe trainbare modellen; het gebruikt een bestaande, bevroren PRM als externe evaluator en past alleen de berekening van de voordeel-waarde aan.
Toekomst: De aanpak biedt een solide basis voor het integreren van procesfeedback in complexe redeneertaken, waarbij de focus ligt op het behoud van de uitkomstcorrectheid als de ultieme waarheid.

Kortom, PROGRS bewijst dat procesbeloningen veilig en effectief kunnen worden gebruikt om de redeneercapaciteit van LLM's te verbeteren, zolang ze strikt worden onderworpen aan de correctheid van het eindresultaat.

LLM Reasoning with Process Rewards for Outcome-Guided Steps

1. Het probleem: De "Fluente Fout"

2. De oplossing: PROGRS (De Nieuwe Leraar)

Truc A: De "Nul-lijn" voor fouten (Outcome-Conditioned Centering)

Truc B: De "Zenuwachtige Student" Detector (Coherence Evaluator)

Waarom is dit zo goed?

Samenvatting in één zin

Titel: LLM Redeneren met Procesbeloningen voor Uitkomstgeleide Stappen (PROGRS)

1. Het Probleem

2. Methodologie: PROGRS

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Convolutional Surrogate for 3D Discrete Fracture-Matrix Tensor Upscaling

Generating Counterfactual Patient Timelines from Real-World Data

LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning

SIEVE: Sample-Efficient Parametric Learning from Natural Language

Not All Denoising Steps Are Equal: Model Scheduling for Faster Masked Diffusion Language Models