Rewards as Labels: Revisiting RLVR from a Classification Perspective

Each language version is independently generated for its own context, not a direct translation.

Titel: Van Strakke Regels naar Slimme Labels: Een Nieuwe Manier om AI te Leren

Stel je voor dat je een jonge, slimme hond traint om moeilijke puzzels op te lossen. In het verleden leerden we deze hond (de AI) door hem te belonen of te straffen op basis van een cijfer. Als hij de puzzel goed oploste, kreeg hij een '10' en als hij het fout deed, een '0'. Maar de manier waarop we die cijfers gebruikten om hem te leren, had een paar grote haken en ogen.

Dit artikel introduceert een nieuwe methode genaamd REAL (Rewards as Labels), die de manier waarop we AI trainen voor wiskundige puzzels volledig verandert. Laten we het uitleggen met een paar alledaagse vergelijkingen.

Het Oude Probleem: De Onrechtvaardige Trainer

De huidige methode (GRPO) werkt als een trainer die kijkt naar hoeveel de hond al weet.

Het probleem met de 'Goede' antwoorden (Gradient Misassignment):
Stel, de hond heeft al een goede oplossing gevonden, maar is er niet helemaal zeker van (hij twijfelt). De oude trainer denkt: "Oh, hij is al bijna zeker, dus ik geef hem een heel klein zetje." Maar als de hond een heel goede oplossing heeft die hij al zeker weet, krijgt hij een enorme klap.
- Gevolg: De hond leert niet goed van zijn twijfelachtige, maar wel correcte antwoorden. Hij blijft hangen in wat hij al weet, in plaats van de moeilijke stukjes te verbeteren.
Het probleem met de 'Foute' antwoorden (Gradient Domination):
Nu stel je voor dat de hond een heel slechte oplossing heeft, maar hij is er ontzettend zeker van dat hij gelijk heeft. De oude trainer wordt hierdoor razend en geeft een enorme straf. Omdat deze straf zo groot is, overschaduwt hij alle andere fouten die de hond misschien gemaakt heeft.
- Gevolg: De trainer focust alleen op die ene grote, zeker-foute fout en negeert de andere, kleinere fouten. Het leren wordt onstabiel en chaotisch.

De Nieuwe Oplossing: REAL (Labels in plaats van Cijfers)

De auteurs van dit paper zeggen: "Waarom kijken we naar cijfers als we gewoon kunnen kijken of het goed of fout is?"

In plaats van te denken aan een cijfer (zoals 0 tot 10), behandelen ze de uitkomst als een label:

Label A: "Goed" (De oplossing klopt).
Label B: "Fout" (De oplossing klopt niet).

Dit klinkt simpel, maar het verandert alles. Het is alsof we de hond niet meer een cijfer geven, maar zeggen: "Dit is een goede hond, dat is een slechte hond."

Hoe werkt dit in de praktijk?
De nieuwe methode, REAL, behandelt het leren als een sorteerspel (een classificatieprobleem).

Het doel is simpel: Zorg dat alle "Goede" antwoorden bovenop de stapel liggen en alle "Foute" antwoorden onderop.
Ze gebruiken een slimme truc: een Anker. Stel je een lijn in het zand voor (de nul).
- Alle goede antwoorden moeten boven die lijn komen.
- Alle foute antwoorden moeten onder die lijn blijven.

Waarom is dit beter?

Geen onredelijke straffen: Bij de oude methode kon een straf zo groot worden dat de hond in paniek raakte (instabiel). Bij REAL is de straf of beloning altijd binnen een redelijke grens. Het is als een trainer die altijd rustig blijft, zelfs als de hond een enorme fout maakt.
Iedereen krijgt aandacht: Of de hond nu twijfelachtig goed is of superzeker fout, hij krijgt een eerlijke kans om te leren. De trainer straft niet alleen de 'grote' fouten, maar helpt ook bij de 'kleine' verbeteringen.
Stabiel leren: Omdat de straf nooit uit de hand loopt, leert de hond rustig en gestadig. Hij breekt niet af (wat bij de oude methode soms gebeurde).

De Resultaten: De Hond wordt een Wiskundig Genie

De auteurs hebben dit getest op verschillende modellen (van klein tot groot) met moeilijke wiskundepuzzels.

Resultaat: De AI met de nieuwe REAL-methode deed het aanzienlijk beter dan de AI's met de oude methode.
Vergelijking: Op de kleinere modellen was de verbetering zo groot dat ze bijna 7% beter scoorden dan de beste concurrenten. Op de grotere modellen was het verschil ook duidelijk.
Bonus: De nieuwe methode werkt zelfs goed zonder extra ingewikkelde regels die de oude methode nodig had om stabiel te blijven.

Conclusie

Kortom: De oude manier van trainen was als een trainer die soms te streng en soms te mild was, afhankelijk van hoe zeker de hond al was. De nieuwe REAL-methode is als een slimme trainer die gewoon zegt: "Dit is goed, dat is fout. Laten we zorgen dat de goede antwoorden altijd winnen."

Dit maakt het trainen van slimme AI's voor complexe taken (zoals wiskunde) stabieler, eerlijker en effectiever. Het is een stap voorwaarts naar AI die we kunnen vertrouwen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Rewards as Labels: RLVR herzien vanuit een classificatieperspectief

Auteurs: Zepeng Zhai, Meilin Chen, Jiaxuan Zhao, Junlang Qian, Lei Shen, Yuan Lu.

1. Het Probleem: Gradient Misassignment en Domination

Hoewel Reinforcement Learning met Verifieerbare Beloningen (RLVR), en specifiek de GRPO (Group Relative Policy Optimization) methode, succesvol is gebleken in het verbeteren van redeneervermogen bij Large Language Models (LLM's), identificeren de auteurs fundamentele tekortkomingen in de huidige gradient-berekeningen. Deze leiden tot inefficiënte en suboptimale beleidsupdates:

Gradient Misassignment in Positives (Gradienten-toewijzing bij Positieve Samples): Bij positieve rollouts (correcte antwoorden) krijgen tokens die al een hoge waarschijnlijkheid hebben onder het huidige beleid, disproportioneel grote updates. Tokens met een lage waarschijnlijkheid ("hard" positieve tokens) krijgen juist zeer zwakke gradienten. Dit betekent dat het model niet effectief leert van de moeilijke, maar correcte stappen.
Gradient Domination in Negatives (Gradienten-dominantie bij Negatieve Samples): Bij negatieve rollouts (foutieve antwoorden) zijn de gradienten niet begrensd. Tokens met een hoge waarschijnlijkheid (fouten die het model als zeer zeker ziet) domineren de update volledig en verdringen de bijdrage van andere informatieve negatieve tokens. Dit maakt het trainingsproces gevoelig voor uitschieters en instabiel.

De auteurs stellen dat deze problemen voortkomen uit de behandeling van beloningen als scalair gewichten in plaats van categorische labels.

2. Methodologie: REAL (Rewards as Labels)

Om deze problemen op te lossen, stellen de auteurs REAL voor, een nieuw framework dat RLVR herformuleert als een classificatieprobleem.

Beloningen als Labels: In plaats van verifieerbare beloningen ( $r \in \{0, 1\}$ ) te gebruiken als gewichten voor de gradient, worden ze behandeld als ruwe categorische labels. Het doel is om het beleid te trainen om "wenselijke" rollouts (positief) te onderscheiden van "onwenselijke" rollouts (negatief).
Logits op basis van Relatieve Log-Kans: Voor elke rollout wordt een score berekend op basis van de lengte-genormaliseerde relatieve log-kans ( $\bar{s}$ $\overset{s}{ˉ}$ ) tussen het nieuwe beleid ( $\pi_\theta$ $π_{θ}$ ) en het oude beleid ( $\pi_{old}$ $π_{o l d}$ ).
- $\bar{s} > 0$ impliceert versterking.
- $\bar{s} < 0$ impliceert onderdrukking.
Doelfunctie (REAL Objective): Het framework gebruikt een unified softmax cross-entropy loss.
- Er wordt een Anchor Logit ( $\bar{s}=0$ ) geïntroduceerd als een vaste referentie.
- Voor positieve samples wordt de loss geminimaliseerd door hun score boven de 0 te duwen (behandelend de 0 als een negatief label).
- Voor negatieve samples wordt de loss geminimaliseerd door hun score onder de 0 te duwen (behandelend de 0 als een positief label).
- De totale loss is de som van deze twee termen, wat zorgt voor een duidelijke scheiding tussen de twee groepen.

Theoretische Voordelen:
De analyse toont aan dat REAL monotone en begrenste gradienten induceert. De grootte van de gradient is begrensd door $1/\tau $(waarbij$ \tau$ een temperatuurparameter is).

Dit voorkomt dat "hard" positieve tokens onder-updaten (oplossing voor Misassignment).
Dit voorkomt dat "hard" negatieve tokens de update domineren (oplossing voor Domination).
Door de natuurlijke begrenzing van de gradienten, is een expliciete KL-divergentie-straf (KL penalty) vaak niet meer nodig om stabiliteit te garanderen.

3. Belangrijkste Bijdragen

Identificatie van Gradient Mismatches: De auteurs hebben twee specifieke, fundamentele fouten in GRPO-achtige methoden blootgelegd die leiden tot suboptimaal leren.
Het REAL Framework: Een nieuw paradigma dat RLVR omzet in een classificatietask, gebruikmakend van softmax-verliezen in plaats van scalair gewogen policy gradients.
Uitgebreide Empirische Validatie: Realisatie van state-of-the-art resultaten op diverse wiskundige redeneerbenchmarks, met bewijs voor verbeterde stabiliteit en prestaties.

4. Resultaten

De auteurs hebben REAL getest op wiskundige redeneerbenchmarks (AIME 2024/2025, MATH 500, AMC 2023, Minerva, Olympiad Bench) met modellen van 1.5B en 7B parameters.

Prestaties (1.5B Model): REAL presteert significant beter dan GRPO en sterke varianten zoals DAPO. De gemiddelde Pass@1 verbeterde met 6.7% ten opzichte van DAPO.
Prestaties (7B Model): De verbeteringen schalen mee. REAL overtreft DAPO met 6.2% en GSPO met 1.7% in gemiddelde Pass@1.
Stabiliteit: In tegenstelling tot GRPO (die last heeft van entropy collapse) en DAPO (entropy explosion), behoudt REAL een stabiele entropie tijdens het trainen.
Zonder KL-straf: REAL blijft stabiel en presteert goed zelfs zonder een expliciete KL-divergentie-term, dankzij de inherente gradient-begrenzing.
Robuustheid: Zelfs met een eenvoudige binair cross-entropy loss (BCE) zonder de geavanceerde anchor-logits, blijft REAL stabiel en presteert het gemiddeld 4.5% beter dan DAPO.

5. Betekenis en Impact

Dit paper biedt een fundamenteel nieuw perspectief op post-training van LLM's voor redeneringstaken.

Principiële Benadering: Het stelt dat het behandelen van verifieerbare beloningen als classificatielabels een meer natuurlijke en stabielere route is dan het gebruik van scalair gewogen beloningen.
Efficiëntie: Door het elimineren van de noodzaak voor complexe clipping-mechanismen en vaak ook de KL-straf, vereenvoudigt REAL het trainingsproces.
Toekomst: De methode biedt een solide basis voor het ontwikkelen van robuustere en betrouwbaardere AI-systemen, waarbij de optimalisatie minder gevoelig is voor uitschieters en instabiliteit.

Kortom, REAL bewijst dat het herformuleren van een RL-probleem als een classificatieprobleem leidt tot superieure trainingsdynamiek en betere redeneerprestaties dan de huidige state-of-the-art GRPO-varianten.

Rewards as Labels: Revisiting RLVR from a Classification Perspective

Het Oude Probleem: De Onrechtvaardige Trainer

De Nieuwe Oplossing: REAL (Labels in plaats van Cijfers)

Waarom is dit beter?

De Resultaten: De Hond wordt een Wiskundig Genie

Conclusie

Titel: Rewards as Labels: RLVR herzien vanuit een classificatieperspectief

1. Het Probleem: Gradient Misassignment en Domination

2. Methodologie: REAL (Rewards as Labels)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

Do we need rebalancing strategies? A theoretical and empirical study around SMOTE and its variants

A Mechanism-Learning Deeply Coupled Model for Remote Sensing Retrieval of Global Land Surface Temperature

Streetscape Analysis with Generative AI (SAGAI): Vision-Language Assessment and Mapping of Urban Scenes

KFS: KAN based adaptive Frequency Selection learning architecture for long term time series forecasting

Physics-Informed Time-Integrated DeepONet: Temporal Tangent Space Operator Learning for High-Accuracy Inference