Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Each language version is independently generated for its own context, not a direct translation.

Samenvatting van het onderzoek: "SGPO" – Hoe AI beter leert van fouten

Stel je voor dat je een kind leert fietsen. Als het kind valt, zeggen we: "Oef, dat was een val. Maar kijk eens, je hebt de eerste tien meter perfect gebalanceerd! Dat was goed. De volgende keer probeer je gewoon niet op die steen te trappen."

Dit is precies wat deze nieuwe wetenschappelijke studie doet voor kunstmatige intelligentie (AI), maar dan met wiskundige problemen in plaats van fietsen.

Het Probleem: De "Alles-of-Niets" Methode

Momenteel gebruiken de slimste AI-modellen (zoals DeepSeek-R1 of OpenAI's o1) een methode om te leren die GRPO heet. Je kunt dit vergelijken met een trainer die een groepje leerlingen een vraag stelt.

Als een leerling het antwoord goed heeft, krijgt hij een sterretje.
Als een leerling het antwoord fout heeft, krijgt hij een nul.

Het probleem is dat GRPO alleen kijkt naar het uiteindelijke resultaat. Als een groepje leerlingen allemaal het verkeerde antwoord geeft (een "alles-fout-groep"), ziet de trainer ze allemaal als nul. De trainer denkt dan: "Oké, niemand had het goed, dus ik leer niets van deze groep." Hij gooit de hele groep weg.

In het echte leven is dit gek. Als een kind een lange wiskundestap maakt en pas bij stap 10 de fout maakt, heeft het de eerste 9 stappen wel goed gedaan! Die eerste 9 stappen zijn waardevol, maar de huidige AI-methode gooit ze weg alsof ze niets waard zijn.

De Oplossing: SGPO (Stap-voor-Stap Gids)

De auteurs van dit paper, Peter Chen en zijn team, hebben een nieuwe methode bedacht die SGPO heet.

Stel je voor dat SGPO niet kijkt naar het eindresultaat, maar naar het reisverslag. Ze gebruiken een "rechter" (een speciaal AI-model) die elke stap van het antwoord bekijkt.

Als de AI bij stap 1, 2 en 3 het goed doet, maar bij stap 4 de verkeerde kant op slaat, zegt SGPO: "Goed gedaan voor de eerste 3 stappen! Je hebt 3/4 van het pad goed bewandeld."
De AI krijgt dus een gedeeltelijke beloning voor de goede stappen, zelfs als het eindantwoord fout is.

Dit is als een leraar die zegt: "Je hebt de formule goed opgeschreven en de eerste berekening correct uitgevoerd. Je hebt alleen de laatste som verkeerd. Laten we die laatste stap verbeteren, maar onthoud dat de rest goed was."

Waarom is dit zo slim?

Leren van fouten: Mensen leren het meest van hun fouten, niet van hun successen. Als je alleen succesvolle antwoorden bekijkt, leer je niet hoe je een moeilijke weg moet vinden. SGPO maakt het mogelijk om van alle antwoorden te leren, zelfs diegene die fout zijn.
Sneller leren: De wiskundige theorie in het paper toont aan dat AI-modellen met SGPO sneller leren dan met de oude methode. Ze raken niet vast in een patroon van "niets doen" als ze even niet slagen.
Geen perfecte leraar nodig: Het mooie is dat de "rechter" (de AI die de stappen controleert) niet zelf het hele moeilijke probleem hoeft op te lossen. Hij hoeft alleen maar te kijken of de stappen logisch zijn. Dit maakt het goedkoper en makkelijker toe te passen.

De Resultaten in het Dagelijkse Leven

De auteurs hebben dit getest op verschillende AI-modellen (van klein tot heel groot) met moeilijke wiskundetoetsen.

Resultaat: De AI's die met SGPO werden getraind, werden beter in het oplossen van moeilijke problemen, vooral in de vroege fase van hun training.
Vergelijking: Het is alsof je een student niet alleen laat studeren met de antwoorden die al goed zijn, maar ook met de antwoorden waar hij bijna goed zat. Die "bijna-goden" zijn vaak de sleutel tot doorbraak.

Conclusie

Kortom: SGPO is een slimme manier om AI te laten groeien door te zeggen: "Fouten zijn oké, zolang je maar leert waar je precies vastliep." In plaats van een fout antwoord te negeren, kijken ze naar de goede stukjes erin en bouwen daarop verder. Hierdoor worden onze AI-assistenten niet alleen slimmer, maar ook menselijker in hun manier van leren.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO" in het Nederlands.

1. Het Probleem: De "All-Negative" Limitatie in GRPO

Reinforcement Learning (RL) heeft bewezen effectief te zijn voor het verbeteren van de redeneercapaciteiten van Large Language Models (LLMs). Een veelgebruikte methode is Group Relative Policy Optimization (GRPO), die voordelen (advantages) berekent door beloningen binnen een groep van antwoorden op dezelfde prompt te normaliseren.

Het paper identificeert een fundamentele beperking in GRPO:

All-Negative-Sample Groepen: Wanneer alle gegenereerde antwoorden in een groep foutief zijn (d.w.z. geen enkel antwoord is correct), zijn alle beloningen gelijk aan 0.
Geen Leer-signaal: Omdat de voordelen worden berekend als de afwijking van het gemiddelde, worden alle voordelen 0 als alle beloningen 0 zijn. Hierdoor vindt er geen update van het beleid (policy) plaats.
Verschil met Menselijke Intelligentie: Mensen leren effectief van fouten. GRPO gooit deze "all-negative" signalen echter weg, wat vooral problematisch is in de vroege en middense fase van training wanneer de redeneercapaciteit nog zwak is en veel fouten worden gemaakt.

2. Methodologie: Stepwise Guided Policy Optimization (SGPO)

De auteurs introduceren SGPO, een framework dat de diversiteit binnen "all-negative" groepen benut door fouten niet als binair (juist/onjuist) te behandelen, maar als gestructureerde, gedeeltelijk correcte trajecten.

Kerncomponenten:

Stap-voor-stap Beoordelaar (Step-wise Judge Model): In plaats van alleen het eindantwoord te controleren, gebruikt SGPO een model om het redeneertraject stap voor stap te evalueren. Dit model identificeert de eerste foutieve stap die het traject afwijkt van de correcte oplossing.
Reasoning Trajectory Score (RTS): Voor een foutief antwoord $y$ met $H$ stappen, waarbij de eerste fout optreedt bij stap $k$ , wordt de RTS gedefinieerd als het aantal correcte stappen gedeeld door het totaal: $RTS(y) = k/H$ .
Gestructureerde Beloningsfunctie: De traditionele beloning $r(x,y)$ $r (x, y)$ (1 voor correct, 0 voor fout) wordt vervangen door een nieuwe functie $r_{SGPO}(y)$ $r_{S GP O} (y)$ :
- Als het eindantwoord correct is: $r = 1$ .
- Als het fout is: $r = \frac{1}{1 + \exp(-\beta(RTS(y) - \gamma))}$ .
- Hierbij zijn $\beta$ en $\gamma$ schaalparameters die de gevoeligheid voor ruis en de drempel voor de beloning regelen.
Integatie in GRPO: SGPO behoudt de bestaande GRPO-pijplijn (rollouts, groepsgrootte, etc.) maar vervangt alleen de beloning die wordt gebruikt voor de berekening van de voordelen binnen de groep. Dit maakt het een "drop-in" oplossing.
Robuustheid: Om de betrouwbaarheid te verhogen, worden meerdere onafhankelijke beoordelingen door de judge-model uitgevoerd en wordt de positie van de eerste fout bepaald via meerderheidsstemming (majority vote).

3. Theoretische Analyse

De auteurs bieden een theoretische analyse in een vereenvoudigd setting (H=2 stappen, 2 mogelijke acties per stap) om te bewijzen dat SGPO sneller convergeert dan GRPO.

Resultaat: In dit model convergeren zowel GRPO als SGPO naar het optimale beleid, maar SGPO convergeert sneller.
Mechanisme: SGPO geeft "krediet" aan gedeeltelijk correcte stappen (bijv. een correcte eerste stap gevolgd door een fout), terwijl GRPO deze volledig negeert. Dit versnelt het leren van de "goede" acties in de vroege stappen van het redeneerproces.
Stelling 3.3: Bewijst dat de waarschijnlijkheid om het optimale beleid te leren onder SGPO strikt hoger is dan onder GRPO voor elke iteratie $k \ge 1$ .

4. Experimentele Resultaten

De methode is getest op verschillende modelgroottes (7B, 14B, 32B) en in zowel offline als online trainingsscenario's op negen redeneerbenchmarks (o.a. AIME, MATH500, Olympiads).

Belangrijkste bevindingen:

Verbetering in Vroege/Mid-Training: SGPO toont de grootste winst in fasen waar "all-negative" groepen veel voorkomen. Het vermogen om van fouten te leren voorkomt dat het model vastloopt.
Prestatie: SGPO verbetert de gemiddelde prestaties op de meeste benchmarks. In sommige gevallen (bijv. bij het 14B model) presteert training uitsluitend op negatieve samples met SGPO zelfs beter dan training uitsluitend op positieve samples.
Onafhankelijkheid van Judge-Kwaliteit: SGPO werkt effectief met zowel krachtige gesloten modellen (o4-mini, Claude 3.7) als open-source modellen (DeepSeek-V3, Qwen3, QwQ-32B). Het vereist niet dat de judge het probleem zelf kan oplossen, alleen dat het fouten kan lokaliseren.
Efficiëntie: De overhead is minimaal (ongeveer 2,5% extra wandeltijd in online training) omdat de beoordeling alleen plaatsvindt voor negatieve groepen en de correctheid efficiënt kan worden geverifieerd tegen een referentie-oplossing.
Vergelijking met GRPO: In benchmarks met moeilijke problemen (waar GRPO vaak stagneert) slaagt SGPO erin om meer problemen op te lossen door de "near-miss" signalen te benutten.

5. Significantie en Bijdragen

De bijdragen van dit paper zijn zowel theoretisch als praktisch:

Nieuw Framework: SGPO lost het "all-negative" probleem in GRPO op door response-diversiteit te introduceren via stap-voor-stap beoordeling, zonder de complexiteit van Process Reward Models (PRMs) of zoekalgoritmen.
Theoretische Onderbouwing: Het is een van de eerste werken dat een theoretisch bewijs levert dat het differentiëren van negatieve samples de leer-dynamiek van RL voor LLMs versnelt.
Praktische Toepasbaarheid: Het framework is kosteneffectief, werkt met bestaande open-source modellen en vereist geen menselijke annotatie voor stap-voor-stap feedback.
Verschil met Bestaande Methoden:
- In tegenstelling tot PRMs (Process Reward Models) vereist SGPO geen dure training van een waarde-functie of zoekprocessen tijdens de inferentie.
- In tegenstelling tot Knowledge Distillation leert het model niet alleen na te bootsen, maar gebruikt het de judge om fouten te identificeren en het eigen beleid te verbeteren.

Conclusie:
SGPO sluit de kloof tussen kunstmatige en menselijke intelligentie door het vermogen van modellen om van fouten te leren, zelfs wanneer geen enkel antwoord in een batch correct is. Het transformeert "dode" negatieve samples in waardevolle leermomenten, wat leidt tot robuustere en sneller lerende redeneermodellen.

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Het Probleem: De "Alles-of-Niets" Methode

De Oplossing: SGPO (Stap-voor-Stap Gids)

Waarom is dit zo slim?

De Resultaten in het Dagelijkse Leven

Conclusie

1. Het Probleem: De "All-Negative" Limitatie in GRPO

2. Methodologie: Stepwise Guided Policy Optimization (SGPO)

3. Theoretische Analyse

4. Experimentele Resultaten

5. Significantie en Bijdragen

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem