Reinforcement Learning with Conditional Expectation Reward

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme robot (een groot taalmodel) wilt leren om moeilijke vragen te beantwoorden, zoals wiskundeproblemen of vragen over de natuurkunde. Om dit te doen, gebruik je een methode genaamd Versterkend Leren (Reinforcement Learning). Dit werkt net als het trainen van een hond: als de hond iets goed doet, krijgt hij een snoepje (beloning); als hij het fout doet, krijgt hij niets.

In de wereld van kunstmatige intelligentie is het "snoepje" een beloningssignaal.

Het Probleem: De Strenge Leraar

Tot nu toe was deze beloning heel streng en zwart-wit.

Het oude systeem: Stel, de vraag is: "Wat is 2 + 2?" en het juiste antwoord is "4".
- Als de robot antwoordt "4", krijgt hij een gouden ster (beloning = 1).
- Als hij antwoordt "Vier", "4,0", "Twee plus twee is vier" of zelfs "Nee, dat is 5", krijgt hij geen ster (beloning = 0).

Dit werkt prima voor wiskunde, waar het antwoord exact moet kloppen. Maar wat als je vraagt: "Is quantumfysica deterministisch?" en het juiste antwoord is "Nee".

Antwoord A: "Nee." (Gouden ster)
Antwoord B: "Nee, quantumfysica is niet deterministisch." (Geen ster, want het woordje "Nee" staat niet alleen)
Antwoord C: "Het is waarschijnlijk." (Geen ster, want het is niet exact "Nee")

Dit is alsof je een leraar hebt die alleen een punt geeft als je het antwoord exact zo opschrijft als in het antwoordboekje. Als je het goed bedoelt maar net iets anders zegt, krijg je een nul. Dit maakt het leren heel lastig, want de robot weet niet waarom hij het fout had, of dat hij misschien half-waar was.

De Oplossing: De "Gevulde" Beloning (CER)

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd Conditional Expectation Reward (CER). In plaats van een strenge leraar met een lijstje, gebruiken ze de robot zelf als een intuïtieve beoordelaar.

De Analogie van de Spiegel:
Stel je voor dat de robot een spiegel is.

De robot geeft een antwoord (bijvoorbeeld: "Nee, quantumfysica is niet deterministisch").
Vervolgens vraagt de robot zichzelf: "Als ik dit antwoord heb gegeven, hoe groot is de kans dat ik daarna het 'juiste' antwoord (uit het antwoordboekje) zou hebben gegenereerd?"

Als het antwoord heel goed overeenkomt met het juiste antwoord, zegt de robot: "Ah, ja! Als ik dit heb gezegd, is de kans heel groot dat ik ook het juiste antwoord had kunnen bedenken." -> Hoge beloning.
Als het antwoord totaal verkeerd is, zegt de robot: "Nee, als ik dit heb gezegd, is de kans dat ik het juiste antwoord had, bijna nul." -> Lage beloning.
Als het antwoord "half-waar" is, zegt de robot: "Nou ja, de kans is niet 100%, maar ook niet 0%. Misschien 60%." -> Een gemiddelde beloning.

Dit is het grote voordeel: de robot krijgt nu kleurrijke beloningen in plaats van alleen zwart en wit. Hij krijgt een "half-gouden ster" als hij het redelijk goed heeft. Hierdoor leert hij veel sneller en beter, vooral bij vragen waar er geen één enkel perfect antwoord is.

Waarom is dit speciaal?

Geen externe leraar nodig: Vroeger had je een speciale computer nodig die de regels kende (bijv. "als het woord 'Nee' erin staat, geef dan een punt"). Nu gebruikt de robot zijn eigen "hersenen" om te beoordelen.
Werkt overal: Of het nu gaat om wiskunde, scheikunde, of het schrijven van een verhaal. Waar je vroeger een nieuwe set regels moest bedenken voor elk vak, werkt deze nieuwe methode voor alles.
Zacht leren: Omdat de beloningen "zacht" zijn (van 0 tot 1), krijgt de robot een beter gevoel voor wat goed is en wat minder goed is, in plaats van alleen te weten wat "volledig fout" is.

Samenvatting

Deze paper introduceert een slimme truc om kunstmatige intelligentie slimmer te maken. In plaats van hen te straffen voor elk klein foutje in de formulering, geven we hen een nuanceerbaar compliment op basis van hoe goed hun antwoord "voelt" in vergelijking met het juiste antwoord.

Het is alsof we stoppen met het corrigeren van een student met een potlood en een streng rood kruis, en beginnen met het geven van een constructieve feedback die zegt: "Je zit er heel dichtbij, je hebt het goed begrepen, maar probeer het nog iets scherper te formuleren." Hierdoor worden de robots sneller en slimmer in het oplossen van complexe, open vragen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Reinforcement Learning with Conditional Expectation Reward" in het Nederlands.

Probleemstelling

Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft zich bewezen als een krachtige methode om de redeneercapaciteiten van grote taalmodellen (LLM's) te verbeteren, met name in domeinen zoals wiskunde. Traditionele RLVR-methoden maken echter gebruik van handgemaakte, domeinspecifieke verificatieregels om de correctheid van een antwoord te bepalen. Dit leidt tot twee belangrijke beperkingen:

Beperkte toepasbaarheid: In domeinen met vrije antwoorden (zoals natuurkunde, chemie, financiën en algemene redenering) vertonen geldige antwoorden vaak grote variatie in oppervlaktevorm en semantiek. Het opstellen van complete en accurate verificatieregels voor deze domeinen is extreem moeilijk, kostbaar of zelfs onmogelijk.
Binaire feedback: Bestaande regelgebaseerde verifiers geven doorgaans alleen binaire feedback (juist of onjuist). Antwoorden die gedeeltelijk correct zijn of semantisch overeenkomen met het referentieantwoord, maar niet exact matchen, krijgen geen beloning. Dit resulteert in een schaars en ruisig leersignaal dat de exploratie van diverse, maar correcte antwoorden belemmert.

Methodologie: Conditional Expectation Reward (CER)

Om deze beperkingen op te lossen, stellen de auteurs Conditional Expectation Reward (CER) voor. In plaats van externe verifiers of handgemaakte regels te gebruiken, fungeert het taalmodel zelf als een impliciete verifier.

Definitie en Principe:
CER wordt gedefinieerd als de verwachte waarschijnlijkheid dat het model het referentieantwoord ( $a^*$ ) genereert, gegeven dat het model al een specifiek antwoord ( $a$ ) heeft gegenereerd.

Formule: $\rho(a, a^*) = \mathbb{E}_{s' \sim \pi_\theta(\cdot|q, a)} [\pi_\theta(a^*|s', q)]$
Intuïtie: Als een gegenereerd antwoord $a$ identiek is aan of sterk consistent is met het referentieantwoord $a^*$ , zal het model een hogere conditionele waarschijnlijkheid toekennen aan het opnieuw genereren van $a^*$ .

Empirische Schatting:
Omdat de exacte definitie onberekenbaar is (vanwege de sommatie over alle mogelijke uitkomsten), wordt een empirische schatter gebruikt via Bayes' regel en Monte Carlo-sampling. De beloningsfunctie $R$ voor een vraag $q$ , oplossing $s$ en antwoord $a$ wordt geschat door $M$ onafhankelijke steekproeven $\{s_j\}$ te nemen:
$R(q, s, a, a^*) = \frac{\sum_{j=1}^M \pi_\theta(a|s_j, q) \pi_\theta(a^*|s_j, q)}{\sum_{j=1}^M \pi_\theta(a|s_j, q)}$
Hierbij worden steekproeven die zowel een hoge waarschijnlijkheid toekennen aan het gegenereerde antwoord $a$ als aan het referentieantwoord $a^*$ zwaarder gewogen.

Efficiëntie:
Een belangrijk kenmerk van CER is dat het geen extra steekproeven vereist voor de beloningsberekening. De steekproeven die al worden gegenereerd voor de schatting van de policy-gradient (voor het trainen) kunnen direct worden hergebruikt voor de berekening van de CER-beloning. Dit maakt de methode computerefficiënt.

Belangrijkste Bijdragen

Generalisatie van RLVR: CER breidt RLVR uit naar domeinen met vrije antwoorden zonder afhankelijkheid van externe verifiers of handgemaakte regels.
Zachte, Gegradeerde Beloning: In tegenstelling tot binaire feedback, biedt CER een continu, zacht beloningssignaal dat verschillende gradaties van correctheid en semantische overeenkomst weerspiegelt.
Theoretische Eigenschappen:
- Beperking: De beloning ligt altijd tussen 0 en 1.
- Zelfconsistentie: Als het gegenereerde antwoord exact overeenkomt met het referentieantwoord, wordt de beloning gemaximaliseerd (posterior herweging).
- Waarde-equivalentie: De verwachte waarde van de CER-doelstelling is theoretisch equivalent aan die van een exact-match doelstelling, maar levert een veel informatiever, continu signaal op.
Complementariteit: De auteurs tonen aan dat CER kan worden gecombineerd met regelgebaseerde beloningen (in domeinen waar deze beschikbaar zijn) om de prestaties verder te verbeteren.

Resultaten

De auteurs hebben CER getest op zowel wiskundige als algemene redeneringsdomeinen (o.a. MATH-7.5K, WebInstruct, MATH500, AIME, SuperGPQA, MMLU-Pro) met modellen zoals Qwen3-4B en Qwen3-8B.

Algemene Domeinen: Op datasets met vrije antwoorden (zoals SuperGPQA en MMLU-Pro) presteerde CER aanzienlijk beter dan exact-match, perplexity-gebaseerde methoden (VeriFree) en zelfs modelgebaseerde verifiers (General-verifier). Het slaagde erin om semantisch correcte maar lexicaal verschillende antwoorden te belonen.
Wiskundige Domeinen: Hoewel regelgebaseerde verifiers hier traditioneel sterk zijn, behaalde CER vergelijkbare prestaties zonder externe regels.
Combinatie: De combinatie van CER met regelgebaseerde beloningen (Rule+CER) leverde consistent de beste resultaten op, wat aantoont dat de methoden elkaars zwaktes compenseren.
Efficiëntie: De analyse toonde aan dat CER een flexibele afweging biedt tussen rekentijd en nauwkeurigheid door de parameter $M$ (aantal steekproeven) aan te passen, zonder extra steekproefkosten ten opzichte van standaard policy-gradient training.

Betekenis

Deze paper introduceert een fundamenteel nieuwe aanpak voor het trainen van taalmodellen via versterkend leren. Door de afhankelijkheid van handgemaakte regels te doorbreken, maakt CER RLVR toepasbaar op een veel bredere scala aan real-world redeneertaken, inclusief die met open-ended antwoorden. Het biedt een robuust, intern consistent mechanisme dat gedeeltelijke correctheid erkent, wat essentieel is voor het verbeteren van de redeneercapaciteiten van AI in complexe, niet-gestructureerde domeinen. De methode vormt een brug tussen de precisie van wiskundige verificatie en de flexibiliteit die nodig is voor algemene intelligentie.

Reinforcement Learning with Conditional Expectation Reward

Het Probleem: De Strenge Leraar

De Oplossing: De "Gevulde" Beloning (CER)

Waarom is dit speciaal?

Samenvatting

Probleemstelling

Methodologie: Conditional Expectation Reward (CER)

Belangrijkste Bijdragen

Resultaten

Betekenis

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers