Oorspronkelijke auteurs: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Gepubliceerd 2026-05-07

📖 5 min leestijd🧠 Diepgaand

CC BY 4.0

Oorspronkelijke auteurs: Zhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Het Grote Plaatje: AI Leren Om Puzzels Op Te Lossen

Stel je voor dat je een robot traint om wiskundeproblemen op te lossen of code te schrijven. Je geeft hem een prompt en hij probeert een antwoord te genereren. Om hem te leren, gebruik je een methode genaamd Versterkend Leren met Verifieerbare Beloningen (RLVR).

Denk hierbij aan een spelshow. De robot (de AI) genereert verschillende antwoorden (reacties) op één vraag. Een scheidsrechter (een simpel computerprogramma) controleert ze:

Als het antwoord correct is, krijgt de robot een "duim omhoog" (positieve beloning).
Als het fout is, krijgt de robot een "duim omlaag" (negatieve beloning).

Het doel is om de robot te leren meer "duim omhoog"-antwoorden te genereren en minder "duim omlaag"-antwoorden. Het artikel richt zich op een specifieke trainingsmethode genaamd GRPO, die populair is omdat deze eenvoudig is en goed werkt.

Het Probleem: Hoe Tel Je de Stemmen?

De kernkwestie die het artikel aanpakt, is een subtiel maar kritiek vraagstuk: Wanneer de robot een groep antwoorden genereert, hoe berekenen we dan de "gemiddelde les" om van te leren?

De robot kan bijvoorbeeld 16 antwoorden tegelijk genereren. Sommige zijn kort (5 woorden), andere lang (500 woorden). Sommige zijn correct, andere fout. Het trainingsalgoritme moet al deze individuele woorden combineren tot één grote "update" om het brein van de robot te verbeteren.

Er zijn twee hoofdwijzen waarop mensen dit hebben gedaan, en het artikel betoogt dat beide een verborgen gebrek hebben:

1. De "Woordaantal"-Methode (Token Aggregatie)

Hoe het werkt: Je telt elk enkel woord (token) van elk antwoord en middelt ze allemaal samen.
Het Gebrek (De "Lamlendige Schurk"): Stel je een groep studenten voor die een toets maken.
- Student A krijgt het antwoord goed maar schrijft een zeer korte, bondige uitleg (10 woorden).
- Student B krijgt het antwoord fout maar schrijft een enorme, zwetsende essay (500 woorden).
- Als je alleen naar het woordenaantal kijkt, weegt het verkeerde antwoord van Student B 50 keer zwaarder in het gemiddelde dan het juiste antwoord van Student A.
- Het Resultaat: De AI raakt in de war. Hij denkt dat de lange, verkeerde antwoorden belangrijker zijn omdat ze meer ruimte innemen. Dit wordt "Sign-Length Coupling" genoemd. De lengte van het antwoord verandert per ongeluk het teken (positief of negatief) van de les.

2. De "Per-Persoon"-Methode (Sequentie Aggregatie)

Hoe het werkt: Je berekent eerst de gemiddelde les voor elk antwoord individueel, en middelt die antwoorden daarna samen.
Het Gebrek (De "Luie Stemmer"): Gebruikend hetzelfde voorbeeld van studenten:
- Student A (Kort, Correct) krijgt 1 stem.
- Student B (Lang, Fout) krijgt 1 stem.
- Het Resultaat: Dit lost het probleem van de "lamlendige schurk" op. Maar nu behandelt het een antwoord van 10 woorden exact hetzelfde als een antwoord van 500 woorden. Als de AI veel leert van een lange, gedetailleerde uitleg, negeert deze methode die extra inspanning. Het "downweightt" lange reacties, alsof ze net zo simpel waren als korte.

De Oplossing: "Balanced Aggregation" (BA)

De auteurs stellen een nieuwe methode voor genaamd Balanced Aggregation (BA). Het is als een slimme scheidsrechter die de gebreken van beide eerdere methoden oplost.

Hoe het werkt:

Sorteer de Antwoorden: Eerst scheidt de scheidsrechter de antwoorden in twee stapels: de "Goede" stapel (duim omhoog) en de "Slechte" stapel (duim omlaag).
Tel Woorden Binnen de Stapels: Binnen de "Goede" stapel tellen ze alle woorden en middelen ze. Binnen de "Slechte" stapel tellen ze alle woorden en middelen ze.
Balans in de Stapels: Tot slot combineren ze de twee stapels. Maar hier is de truc: ze mengen ze niet zomaar willekeurig. Ze zorgen ervoor dat de "Goede" stapel en de "Slechte" stapel gelijke invloed hebben op de uiteindelijke beslissing, ongeacht hoeveel woorden er in elke stapel zitten.

De Analogie:
Stel je een gemeenteraad voor die stemt over een nieuw park.

Oude Methode 1 (Woordaantal): Mensen die het langst praten krijgen de meeste stemmen, zelfs als ze ongelijk hebben.
Oude Methode 2 (Per-Persoon): Iedere persoon krijgt één stem, zelfs als één persoon een rapport van 50 pagina's heeft geschreven en een ander gewoon "Ja" heeft gezegd.
Balanced Aggregation: De raad splitst zich in "Voor-Park" en "Tegen-Park" groepen. Ze middelen de argumenten binnen elke groep. Dan geven ze de "Voor" groep en de "Tegen" groep gelijke weging in de uiteindelijke beslissing, zodat de lengte van de argumenten het resultaat niet vertekent.

Wat Hebben Ze Gevonden?

De onderzoekers testten deze nieuwe methode op twee verschillende AI-modellen (Qwen2.5-Math-7B en Qwen3-1.7B) met behulp van wiskunde- en coderingsdatasets.

Stabiliteit is Cruciaal: De oude methoden werkten vaak goed aan het begin, maar crashten of werden instabiel later in de training. De "Woordaantal"-methode was vooral instabiel wanneer de AI begon met het schrijven van zeer lange, verkeerde antwoorden.
Betere Resultaten: De Balanced Aggregation-methode leverde consequent betere eindscores op. Het was stabieler, wat betekent dat de AI gestaag leerde zonder wilde schommelingen in prestaties.
Waarom Het Belangrijk Is: Het artikel toont aan dat de "beste" manier om een AI te trainen afhangt van hoe sterk de lengte van de antwoorden varieert.
- Als antwoorden enorm variëren in lengte, kan de "Woordaantal"-methode riskant zijn.
- Als het verschil tussen de lengte van "Goede" en "Slechte" antwoorden enorm is, kan de "Per-Persoon"-methode onrechtvaardig zijn.
- Balanced Aggregation werkt goed in beide situaties omdat het het specifieke vooroordeel van elke methode oplost.

De Conclusie

Het artikel concludeert dat hoe je de "ingrediënten" (de data) "mixt" (aggregeert) in AI-training niet slechts een klein technisch detail is; het is een belangrijke ontwerpkeuze die bepaalt of de AI effectief leert of in de war raakt. Door simpelweg de "goede" en "slechte" voorbeelden te scheiden voordat ze worden gemiddeld, hebben de auteurs een methode gecreëerd die robuuster, stabieler en effectiever is voor het leren van AI om te redeneren en te coderen.

Each language version is independently generated for its own context, not a direct translation.

Technische Samenvatting: Gebalanceerde Aggregatie: Begrip en Oplossing van Aggregatiebias in GRPO

Probleemstelling

Versterkingsleren met verifieerbare beloningen (RLVR) is een standaardparadigma geworden voor het verbeteren van redeneren en codegeneratie in Large Language Models (LLM's), waarbij Groepsrelatieve Beleidsoptimalisatie (GRPO) een veelgebruikte methode is vanwege zijn eenvoud en het ontbreken van een aparte criticus. Een kritieke ontwerpkies binnen GRPO blijft echter onderbelicht: de aggregatieregel voor token-niveau beleidsgradiënttermen binnen een bemonsterde groep.

Huidige praktijken vallen over het algemeen in twee categorieën:

Sequentie-aggregatie: De standaard in standaard GRPO, die eerst de token-bijdragen binnen elk antwoord middelt en vervolgens middelt over de antwoorden. Dit verlaagt impliciet langere antwoorden in gewicht, omdat elke sequentie evenveel bijdraagt ongeacht het aantal tokens.
Token-aggregatie: Gepleit door recente werken zoals DAPO en Dr.GRPO, die het afgeknipte doel direct middelen over alle tokens in de bemonsterde groep.

Het artikel identificeert dat deze twee regels systematisch verschillende optimalisatiebias induceren:

Token-aggregatie introduceert een sign-lengte-koppelingsbias. De relatieve bijdrage van positieve (voordeel > 0) en negatieve (voordeel < 0) steekproeven hangt niet alleen af van hun genormaliseerde voordelen, maar ook van hun gemiddelde antwoordlengten. Als positieve en negatieve antwoorden verschillende lengteverdelingen hebben, kan token-aggregatie systematisch één kant van de update versterken, wat leidt tot instabiele trainingsdynamiek.
Sequentie-aggregatie verwijdert de sign-lengte-koppeling door elke respons een gelijke gewicht toe te kennen. Het introduceert echter een sequente-gelijk-waarderingbias, waarbij langere antwoorden impliciet in gewicht worden verlaagd omdat het verlies per sequentie wordt gemiddeld in plaats van per token.

Geen van beide benaderingen is universeel optimaal; de effectiviteit van elk hangt af van de variantie in antwoordlengten en het gat in lengtes tussen positieve en negatieve steekproeven.

Methodologie: Gebalanceerde Aggregatie (BA)

Om de spanning tussen deze bias aan te pakken, stellen de auteurs Gebalanceerde Aggregatie (BA) voor, een eenvoudige drop-in vervanging voor de aggregatiestap in GRPO-stijl RLVR.

De kernmechanisme van BA omvat een drie-staps proces:

Partitie: De bemonsterde groep antwoorden wordt opgesplitst in twee subsets op basis van het teken van hun genormaliseerde voordelen: een positieve subset ( $S_+$ ) en een negatieve subset ( $S_-$ ).
Intra-subset middeling: Token-niveau gemiddelden worden apart berekend binnen elke subset. Dit behoudt de token-niveau middelingseigenschap binnen teken-groepen, waardoor de sterke per-sequente gelijke waardering van standaard sequentie-aggregatie wordt vermeden.
Inter-subset combinatie: De twee subset-verliezen worden gecombineerd met gewichten evenredig aan het aantal sequenties in elke subset ( $k/G$ voor positief en $(G-k)/G$ voor negatief, waarbij $k$ het aantal positieve sequenties is).

Theoretische rechtvaardiging:
In de standaard binair-beloning GRPO-instelling zorgt dit specifieke wegingsschema ervoor dat BA dezelfde inter-teken balancerende prefactor induceert als sequentie-aggregatie ( $\sqrt{k(G-k)}/G$ ). Bijgevolg behoudt BA de sign-balans eigenschap van sequentie-aggregatie (verwijdering van sign-lengte-koppeling) terwijl het het sterke sequentie-gelijk-waarderingseffect vermijdt dat lange antwoorden bestraft. Het artikel biedt ook een gegeneraliseerde formulering voor niet-binair beloningen waarbij gewichten worden bepaald door voordeelmassa in plaats van sequentietelling.

Belangrijkste bijdragen

Gefuseerde analyse van aggregatiebias: Het artikel biedt een formele analyse die aantoont dat verliesaggregatie in GRPO geen onschadelijk implementatiedetail is. Het karakteriseert de specifieke "sign-lengte-koppeling" bias in token-aggregatie en de "sequente-gelijk-waardering" bias in sequentie-aggregatie.
Gebalanceerde Aggregatie (BA): Het voorstellen van BA als een eenvoudige, drop-in alternatief dat sign- en lengtebias ontkoppelt. Het voert token-niveau middeling uit binnen teken-groepen, maar balanceert de groepen op basis van sequentietellingen.
Empirische validatie en diagnostische criteria: Uitgebreide experimenten die aantonen dat de relatieve effectiviteit van token versus sequentie-aggregatie wordt bepaald door de variantie in antwoordlengte en het positief-negatief lengtegat. Het artikel toont aan dat BA consequent beide baselines overtreft over verschillende modellen en datasets.

Experimentele resultaten

De auteurs evalueerden BA met Qwen2.5-Math-7B en Qwen3-1.7B op twee trainingsdatasets (DAPO-17k en Polaris). De prestaties werden gemeten over zes benchmarks: Math-500, AIME 2024, AIME 2025, OlympicBench, Minerva-MATH en LiveCodeBench.

Belangrijkste bevindingen:

Trainingsstabiliteit: Token-aggregatie leidt vaak tot ernstige prestatiedegradatie in latere trainingsfasen (hoge piek-tot-laatste-stap daling), terwijl BA robuuste laatste-stap nauwkeurigheid behoudt.
Model-afhankelijke dynamiek:
- Op Qwen2.5-Math-7B (dat grotere variatie in antwoordlengte vertoonde), presteerde token-aggregatie aanvankelijk beter dan sequentie-aggregatie, maar BA overtrof beide in piek- en laatste-stap prestaties.
- Op Qwen3-1.7B (dat een groter positief-negatief lengtegat vertoonde), was sequentie-aggregatie stabieler dan token-aggregatie, maar BA behaalde opnieuw de hoogste piek- en laatste-stap metrieken.
Verliesdynamiek: Analyse van beleidsgradiënt-verliestrajecten onthulde dat token-aggregatie enorme afwijkingen van nul veroorzaakt door sign-lengte-koppeling, terwijl BA en sequentie-aggregatie stabiel blijven in de buurt van nul.
Totale prestaties: BA leverde consequent sterkere eindprestaties en betere trainingsstabiliteit op dan standaard token- en sequentie-aggregatie over alle geteste regimes.

Betekenis en claims

Het artikel beweert dat aggregatie een eersteklas ontwerpkies is in GRPO-stijl RLVR, in plaats van een minor implementatiedetail. De betekenis van het werk ligt in:

Stabiliteit: BA biedt een robuuster optimalisatiesignaal dat de instorting van training voorkomt die vaak wordt waargenomen bij token-aggregatie in latere fasen.
Universaliteit: In tegenstelling tot token- of sequentie-aggregatie, die alleen goed presteren onder specifieke lengteverdelingsvoorwaarden, is BA robuust over verschillende modelgroottes en datasets.
Ontwerpprincipe: Het werk benadrukt dat effectief RLVR vereist dat inter-teken weging wordt gebalanceerd (om bias te voorkomen) zonder binnen-teken token-informatie te verwerpen (om signaal van lange antwoorden te behouden).

De auteurs concluderen dat Gebalanceerde Aggregatie een eenvoudige maar effectieve oplossing biedt voor de inherente trade-offs in GRPO, wat leidt tot stabielere optimalisatie en verbeterde eindmodelprestaties in redenerings- en coderingstaken.

Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO