Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Dit artikel toont aan dat het combineren van een taakbeloning met een beloning voor de canonieke volgorde van acties tijdens RL-post-training de prestaties van een Transformer op zebra-puzzels verbetert, zelfs wanneer het model is gefinetuned op gerandomiseerde oplossingssequenties.

Prakhar Gupta, Vaibhav Gupta

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een slimme robot leert een complex raadsel op te lossen, zoals een "Zebra-puzzel" (een logische puzzel waar je moet raden wie welke hond heeft, in welk huis woont, etc.).

Deze paper beschrijft een slimme manier om die robot nog slimmer te maken, zonder dat je hem opnieuw moet leren hoe de puzzel werkt. Hier is de uitleg in gewone taal, met een paar leuke vergelijkingen:

1. Het Probleem: De Robot die "Willekeurig" Loopt

Stel je voor dat je de robot eerst leert de oplossing te schrijven, maar je laat hem de stappen in een willekeurige volgorde doen.

  • Vergelijking: Het is alsof je iemand leert een huis te bouwen, maar je laat hem eerst het dak leggen, dan de muren, dan de fundering, en dan weer het dak. De robot leert wel wat er in het huis moet staan, maar hij leert niet hoe je het logisch bouwt.

Wanneer de robot later zelfstandig moet werken, maakt hij vaak fouten omdat hij geen duidelijk plan heeft. Hij probeert gewoon het antwoord te gissen.

2. De Oplossing: Een "Fluisterend" Hintsysteem

De onderzoekers wilden weten: Kunnen we de robot helpen om de stappen in de goede volgorde te doen, zonder dat we hem opnieuw moeten leren trainen?

Ze gebruikten een techniek genaamd Reinforcement Learning (beloningstherapie). Hierbij krijgt de robot een puntje als hij het raadsel oplost. Maar ze voegden iets nieuws toe: een extra beloning voor de volgorde.

  • De Analogie: Stel je voor dat de robot een speler is in een computerspel.
    • De oude manier: Je krijgt alleen punten als je de eindbaas verslaat.
    • De nieuwe manier: Je krijgt punten als je de eindbaas verslaat, PLUS een klein extra puntje als je de levels in de juiste volgorde hebt doorlopen (eerst level 1, dan level 2, etc.).

Zelfs als de robot die extra punten maar heel weinig krijgt (bijvoorbeeld 1% van de totale score), helpt het hem enorm om een beter "plan" te volgen.

3. Hoe werkt het precies? (De "Bootstrapped" Mix)

De onderzoekers hadden een slimme truc nodig om de twee soorten beloningen eerlijk te vergelijken.

  • Soms is het heel moeilijk om de puzzel helemaal op te lossen (dat puntje is zeldzaam).
  • Soms is het makkelijk om de volgorde een beetje te volgen (dat puntje krijg je vaker).

Als je deze twee gewoon optelt, zou het ene puntje het andere kunnen "overstemmen". Daarom gebruikten ze een automatische schaalvergroting (de "bootstrapped scaling").

  • Vergelijking: Het is alsof je twee geluiden mengt in een stereo-installatie. Als het ene geluid (het oplossen van de puzzel) heel zacht is en het andere (de volgorde) heel hard, zou je het harde geluid moeten dempen. Ze stelden de volume-knoppen zo in dat beide geluiden even hard klinken aan het begin, zodat de robot beide signalen even goed kan horen.

4. Het Resultaat: Een Klein Duwtje in de Rug

Het resultaat was verrassend goed:

  • De robot die alleen leerde op "oplossen" (zonder volgorde-hints), loste ongeveer 28% van de puzzels op.
  • De robot die een heel klein beetje extra beloning kreeg voor de juiste volgorde (zelfs maar 1% van de beloning), kon plotseling 36% van de puzzels oplossen.

De les: Je hoeft de robot niet te vertellen hoe hij moet denken. Je hoeft alleen maar een heel klein "flauw" hintje te geven over de volgorde, en de robot begint vanzelf de logische stappen te volgen alsof hij een eigen wereldmodel heeft.

Samenvatting in één zin

Door een slimme robot een heel klein extra puntje te geven voor het volgen van de juiste volgorde (in plaats van alleen voor het eindantwoord), wordt hij veel beter in het oplossen van logische puzzels, zonder dat je hem opnieuw hoeft te leren hoe de puzzel werkt.

Het is alsof je iemand die een raadsel probeert op te lossen niet vertelt wat het antwoord is, maar alleen fluistert: "Oh, en probeer maar eerst de makkelijkste hints te gebruiken." Dat kleine hintje maakt het verschil tussen vastlopen en slagen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →