Rewards as Labels: Revisiting RLVR from a Classification Perspective

Dit paper introduceert REAL, een nieuw framework dat verifieerbare beloningen herkijkt als classificatielabels in plaats van scalair gewichten om de inefficiënties van bestaande RLVR-methoden zoals GRPO te verhelpen en zo de prestaties en stabiliteit van taalmodellen op wiskundige redeneertaken aanzienlijk te verbeteren.

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao, Junlang Qian, Lei Shen, Yuan Lu

Gepubliceerd 2026-03-05
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Titel: Van Strakke Regels naar Slimme Labels: Een Nieuwe Manier om AI te Leren

Stel je voor dat je een jonge, slimme hond traint om moeilijke puzzels op te lossen. In het verleden leerden we deze hond (de AI) door hem te belonen of te straffen op basis van een cijfer. Als hij de puzzel goed oploste, kreeg hij een '10' en als hij het fout deed, een '0'. Maar de manier waarop we die cijfers gebruikten om hem te leren, had een paar grote haken en ogen.

Dit artikel introduceert een nieuwe methode genaamd REAL (Rewards as Labels), die de manier waarop we AI trainen voor wiskundige puzzels volledig verandert. Laten we het uitleggen met een paar alledaagse vergelijkingen.

Het Oude Probleem: De Onrechtvaardige Trainer

De huidige methode (GRPO) werkt als een trainer die kijkt naar hoeveel de hond al weet.

  1. Het probleem met de 'Goede' antwoorden (Gradient Misassignment):
    Stel, de hond heeft al een goede oplossing gevonden, maar is er niet helemaal zeker van (hij twijfelt). De oude trainer denkt: "Oh, hij is al bijna zeker, dus ik geef hem een heel klein zetje." Maar als de hond een heel goede oplossing heeft die hij al zeker weet, krijgt hij een enorme klap.

    • Gevolg: De hond leert niet goed van zijn twijfelachtige, maar wel correcte antwoorden. Hij blijft hangen in wat hij al weet, in plaats van de moeilijke stukjes te verbeteren.
  2. Het probleem met de 'Foute' antwoorden (Gradient Domination):
    Nu stel je voor dat de hond een heel slechte oplossing heeft, maar hij is er ontzettend zeker van dat hij gelijk heeft. De oude trainer wordt hierdoor razend en geeft een enorme straf. Omdat deze straf zo groot is, overschaduwt hij alle andere fouten die de hond misschien gemaakt heeft.

    • Gevolg: De trainer focust alleen op die ene grote, zeker-foute fout en negeert de andere, kleinere fouten. Het leren wordt onstabiel en chaotisch.

De Nieuwe Oplossing: REAL (Labels in plaats van Cijfers)

De auteurs van dit paper zeggen: "Waarom kijken we naar cijfers als we gewoon kunnen kijken of het goed of fout is?"

In plaats van te denken aan een cijfer (zoals 0 tot 10), behandelen ze de uitkomst als een label:

  • Label A: "Goed" (De oplossing klopt).
  • Label B: "Fout" (De oplossing klopt niet).

Dit klinkt simpel, maar het verandert alles. Het is alsof we de hond niet meer een cijfer geven, maar zeggen: "Dit is een goede hond, dat is een slechte hond."

Hoe werkt dit in de praktijk?
De nieuwe methode, REAL, behandelt het leren als een sorteerspel (een classificatieprobleem).

  • Het doel is simpel: Zorg dat alle "Goede" antwoorden bovenop de stapel liggen en alle "Foute" antwoorden onderop.
  • Ze gebruiken een slimme truc: een Anker. Stel je een lijn in het zand voor (de nul).
    • Alle goede antwoorden moeten boven die lijn komen.
    • Alle foute antwoorden moeten onder die lijn blijven.

Waarom is dit beter?

  1. Geen onredelijke straffen: Bij de oude methode kon een straf zo groot worden dat de hond in paniek raakte (instabiel). Bij REAL is de straf of beloning altijd binnen een redelijke grens. Het is als een trainer die altijd rustig blijft, zelfs als de hond een enorme fout maakt.
  2. Iedereen krijgt aandacht: Of de hond nu twijfelachtig goed is of superzeker fout, hij krijgt een eerlijke kans om te leren. De trainer straft niet alleen de 'grote' fouten, maar helpt ook bij de 'kleine' verbeteringen.
  3. Stabiel leren: Omdat de straf nooit uit de hand loopt, leert de hond rustig en gestadig. Hij breekt niet af (wat bij de oude methode soms gebeurde).

De Resultaten: De Hond wordt een Wiskundig Genie

De auteurs hebben dit getest op verschillende modellen (van klein tot groot) met moeilijke wiskundepuzzels.

  • Resultaat: De AI met de nieuwe REAL-methode deed het aanzienlijk beter dan de AI's met de oude methode.
  • Vergelijking: Op de kleinere modellen was de verbetering zo groot dat ze bijna 7% beter scoorden dan de beste concurrenten. Op de grotere modellen was het verschil ook duidelijk.
  • Bonus: De nieuwe methode werkt zelfs goed zonder extra ingewikkelde regels die de oude methode nodig had om stabiel te blijven.

Conclusie

Kortom: De oude manier van trainen was als een trainer die soms te streng en soms te mild was, afhankelijk van hoe zeker de hond al was. De nieuwe REAL-methode is als een slimme trainer die gewoon zegt: "Dit is goed, dat is fout. Laten we zorgen dat de goede antwoorden altijd winnen."

Dit maakt het trainen van slimme AI's voor complexe taken (zoals wiskunde) stabieler, eerlijker en effectiever. Het is een stap voorwaarts naar AI die we kunnen vertrouwen.