Reinforcement Learning with Conditional Expectation Reward

Dit artikel introduceert Conditional Expectation Reward (CER), een methode die grote taalmodellen gebruikt als impliciete verifiers om versterkingslering met verifieerbare beloningen uit te breiden naar domeinen met vrije antwoorden door een zachte, graduele beloning te bieden op basis van de waarschijnlijkheid van het genereren van een referentieantwoord.

Changyi Xiao, Caijun Xu, Yixin Cao

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme robot (een groot taalmodel) wilt leren om moeilijke vragen te beantwoorden, zoals wiskundeproblemen of vragen over de natuurkunde. Om dit te doen, gebruik je een methode genaamd Versterkend Leren (Reinforcement Learning). Dit werkt net als het trainen van een hond: als de hond iets goed doet, krijgt hij een snoepje (beloning); als hij het fout doet, krijgt hij niets.

In de wereld van kunstmatige intelligentie is het "snoepje" een beloningssignaal.

Het Probleem: De Strenge Leraar

Tot nu toe was deze beloning heel streng en zwart-wit.

  • Het oude systeem: Stel, de vraag is: "Wat is 2 + 2?" en het juiste antwoord is "4".
    • Als de robot antwoordt "4", krijgt hij een gouden ster (beloning = 1).
    • Als hij antwoordt "Vier", "4,0", "Twee plus twee is vier" of zelfs "Nee, dat is 5", krijgt hij geen ster (beloning = 0).

Dit werkt prima voor wiskunde, waar het antwoord exact moet kloppen. Maar wat als je vraagt: "Is quantumfysica deterministisch?" en het juiste antwoord is "Nee".

  • Antwoord A: "Nee." (Gouden ster)
  • Antwoord B: "Nee, quantumfysica is niet deterministisch." (Geen ster, want het woordje "Nee" staat niet alleen)
  • Antwoord C: "Het is waarschijnlijk." (Geen ster, want het is niet exact "Nee")

Dit is alsof je een leraar hebt die alleen een punt geeft als je het antwoord exact zo opschrijft als in het antwoordboekje. Als je het goed bedoelt maar net iets anders zegt, krijg je een nul. Dit maakt het leren heel lastig, want de robot weet niet waarom hij het fout had, of dat hij misschien half-waar was.

De Oplossing: De "Gevulde" Beloning (CER)

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd Conditional Expectation Reward (CER). In plaats van een strenge leraar met een lijstje, gebruiken ze de robot zelf als een intuïtieve beoordelaar.

De Analogie van de Spiegel:
Stel je voor dat de robot een spiegel is.

  1. De robot geeft een antwoord (bijvoorbeeld: "Nee, quantumfysica is niet deterministisch").
  2. Vervolgens vraagt de robot zichzelf: "Als ik dit antwoord heb gegeven, hoe groot is de kans dat ik daarna het 'juiste' antwoord (uit het antwoordboekje) zou hebben gegenereerd?"
  • Als het antwoord heel goed overeenkomt met het juiste antwoord, zegt de robot: "Ah, ja! Als ik dit heb gezegd, is de kans heel groot dat ik ook het juiste antwoord had kunnen bedenken." -> Hoge beloning.
  • Als het antwoord totaal verkeerd is, zegt de robot: "Nee, als ik dit heb gezegd, is de kans dat ik het juiste antwoord had, bijna nul." -> Lage beloning.
  • Als het antwoord "half-waar" is, zegt de robot: "Nou ja, de kans is niet 100%, maar ook niet 0%. Misschien 60%." -> Een gemiddelde beloning.

Dit is het grote voordeel: de robot krijgt nu kleurrijke beloningen in plaats van alleen zwart en wit. Hij krijgt een "half-gouden ster" als hij het redelijk goed heeft. Hierdoor leert hij veel sneller en beter, vooral bij vragen waar er geen één enkel perfect antwoord is.

Waarom is dit speciaal?

  1. Geen externe leraar nodig: Vroeger had je een speciale computer nodig die de regels kende (bijv. "als het woord 'Nee' erin staat, geef dan een punt"). Nu gebruikt de robot zijn eigen "hersenen" om te beoordelen.
  2. Werkt overal: Of het nu gaat om wiskunde, scheikunde, of het schrijven van een verhaal. Waar je vroeger een nieuwe set regels moest bedenken voor elk vak, werkt deze nieuwe methode voor alles.
  3. Zacht leren: Omdat de beloningen "zacht" zijn (van 0 tot 1), krijgt de robot een beter gevoel voor wat goed is en wat minder goed is, in plaats van alleen te weten wat "volledig fout" is.

Samenvatting

Deze paper introduceert een slimme truc om kunstmatige intelligentie slimmer te maken. In plaats van hen te straffen voor elk klein foutje in de formulering, geven we hen een nuanceerbaar compliment op basis van hoe goed hun antwoord "voelt" in vergelijking met het juiste antwoord.

Het is alsof we stoppen met het corrigeren van een student met een potlood en een streng rood kruis, en beginnen met het geven van een constructieve feedback die zegt: "Je zit er heel dichtbij, je hebt het goed begrepen, maar probeer het nog iets scherper te formuleren." Hierdoor worden de robots sneller en slimmer in het oplossen van complexe, open vragen.