Reward-Conditioned Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren lopen. Normaal gesproken geef je de robot één specifieke opdracht: "Loop zo snel mogelijk naar die boom." Als de robot dat doet, krijgt hij een beloning (een puntje). Dit is hoe de meeste kunstmatige intelligentie (AI) vandaag de dag werkt.

Maar er zit een groot probleem in deze aanpak:

Het is stijf: Als je later zegt: "Eigenlijk wil ik dat hij rustig loopt, niet snel," moet je de robot helemaal opnieuw leren.
Het is kwetsbaar: Als je de opdracht per ongeluk net iets verkeerd formuleert (bijvoorbeeld "loop snel" in plaats van "loop snel en veilig"), kan de robot ineens gekke dingen gaan doen, zoals over zijn kop slaan.

De auteurs van dit paper, Michal Nauman en zijn collega's, hebben een slimme oplossing bedacht die ze RCRL noemen (Reward-Conditioned Reinforcement Learning). Laten we dit uitleggen met een paar creatieve analogieën.

1. De "Multitask Chef" vs. De "Eenzame Kok"

De oude manier (De Eenzame Kok):
Stel je een kok voor die alleen maar voor één menu werkt: "De perfecte pizza". Hij oefent duizenden keren pizza bakken. Als de klant plotseling zegt: "Ik wil eigenlijk een pasta," moet de kok de hele keuken sluiten, alle pizza-uitrusting weggooien en opnieuw beginnen met pasta. Hij kan niet snel schakelen.

De RCRL-methode (De Multitask Chef):
De auteurs laten de robot (de kok) tijdens het trainen niet alleen maar "pizza" maken. Ze zeggen tegen de robot:
"Je gaat wel pizza bakken (dat is je hoofddoel), maar terwijl je dat doet, moet je ook leren hoe je zou bakken als de klant 'pasta' wilde, of 'salade', of 'taart'."

De robot verzamelt ervaring met het bakken van pizza, maar hij leert terwijl hij dat doet ook hoe hij zou reageren op de andere smaken. Hij krijgt een soort "recept-boek" mee.

Als de klant "pizza" wil, slaat hij op pagina 1.
Als de klant "pasta" wil, slaat hij op pagina 2.

Het mooie is: de robot heeft alleen maar pizza gemaakt om te oefenen. Hij heeft nooit echt pasta in de oven gedaan. Maar omdat hij tijdens het pizza-bakken heeft geleerd hoe de ingrediënten (de beloningen) werken voor elk gerecht, kan hij direct pasta maken zodra de klant het vraagt, zonder opnieuw te hoeven oefenen.

2. De "Stuurknop" voor het gedrag

In de wereld van RCRL is de beloning (de punten die de robot krijgt) niet vast. Het is als een stuurknop of een dimmer.

Normale AI: De robot heeft één vaste dimmer op "100% snelheid". Hij kan niet lager of hoger.
RCRL: De robot heeft een dimmerknop in zijn hand. Tijdens het trainen leert hij: "Als ik de knop op 20% zet, loop ik langzaam. Als ik hem op 100% zet, ren ik."

Zodra de robot klaar is met trainen, kun je hem in de echte wereld sturen en zeggen: "Draai de knop naar 50%." En poef, de robot past zijn gedrag direct aan. Geen nieuwe training nodig. Hij is al voorbereid op elke instelling.

3. Waarom is dit zo slim?

De paper laat zien dat deze methode drie grote voordelen heeft:

Efficiënter leren: Omdat de robot tijdens het oefenen op één taak (bijvoorbeeld lopen) ook leert hoe hij zou reageren op andere doelen (zoals "niet vallen" of "energie besparen"), wordt hij slimmer en sneller in zijn hoofdtaken. Het is alsof je niet alleen leert autorijden, maar ook leert hoe je zou rijden als het regent of als je een vrachtwagen trekt. Je wordt een betere bestuurder, zelfs als je alleen maar op een droge weg oefent.
Direct aanpassen (Zero-Shot): Als de opdracht verandert, hoeft de robot niet opnieuw te trainen. Je verandert gewoon de "stuurknop" (de instelling) en hij doet het.
Minder fouten: Als je de beloning per ongeluk net iets verkeerd instelt, is de robot niet meer zo snel in paniek. Hij heeft immers geleerd om met variaties om te gaan.

Samenvatting in één zin

In plaats van een robot te trainen die maar één ding kan doen en daarvoor stug blijft, trainen ze een robot die leert hoe hij moet denken over verschillende doelen, zodat hij op elk moment kan schakelen tussen "snel rennen", "rustig wandelen" of "voorzichtig stappen" met één druk op de knop, zonder ooit extra tijd te hoeven besteden aan die andere taken.

Het is de overstap van een robot die een liedje uit zijn hoofd heeft geleerd, naar een robot die muziek kan improviseren op elk moment dat jij een notitie geeft.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Huidige Reinforcement Learning (RL) systemen worden doorgaans getraind onder één vaste beloningsfunctie (reward function). Dit leidt tot twee belangrijke beperkingen:

Fragiliteit bij verkeerde specificatie: Agents zijn kwetsbaar voor kleine fouten in de beloningsfunctie; een kleine wijziging in de samenstelling van de beloning kan leiden tot drastisch ander gedrag.
Gebrek aan aanpassingsvermogen: Agents getraind op een vaste beloning kunnen zich niet flexibel aanpassen aan veranderende taakvoorkeuren of herziene doelen zonder volledig opnieuw getraind te worden (retraining). Dit maakt ze ongeschikt voor real-world scenario's waar doelen onzeker zijn of evolueren.

Traditionele multi-task learning benaderingen vereisen vaak interactie met de omgeving voor elke taak, wat de sample-efficiëntie verlaagt.

Methodologie: Reward-Conditioned RL (RCRL)

RCRL is een framework dat een enkele agent traint om een familie van beloningspecificaties te optimaliseren, terwijl het ervaring verzamelt onder slechts één nominale doelstelling. De kern van de methode is voorwaardelijke training (conditioning) op beloningsparameters.

Kerncomponenten:

Structuur van de Beloning: De paper gaat ervan uit dat beloningen vaak zijn opgebouwd uit componenten $c_1, ..., c_k$ (bijv. taakvoortgang, controlekosten) die worden gecombineerd via een parameterisatie $\psi$ . De uiteindelijke beloning is $r_\psi = f(\psi, c_1, ..., c_k)$ .
Data Collectie: De agent verzamelt ervaring uitsluitend onder de nominale beloningsparameterisatie $\psi^*$ . De overgangen (state, action, next state) worden opgeslagen in een replay buffer samen met de ruwe beloningscomponenten.
Off-Policy Training met Herlabeling: Tijdens het trainen wordt voor elke overgang in een batch een nieuwe beloningsparameterisatie $\psi$ getrokken uit een verdeling $P_\Psi$ . Deze verdeling is een mengsel van de nominale parameterisatie en een reeks alternatieve parameterisaties:
$P_\Psi = \alpha \delta_{\psi^*} + (1 - \alpha) p_\Psi$
Waarbij $\alpha$ de frequentie bepaalt met welke updates onder de nominale beloning worden uitgevoerd.
Netwerk Architectuur: Zowel de actor ( $\pi_\theta$ ) als de critic ( $Q_\theta$ ) worden voorwaardelijk gemaakt op de parameterisatie $\psi$ . De input wordt uitgebreid van $[s]$ naar $[s, \psi]$ (of een embedding van $\psi$ ). Hierdoor leert het netwerk één beleid dat verschillende beloningsinterpretaties kan vertegenwoordigen.
Strategieën voor Parameterisatie ( $\Psi$ ):
- Geparametriseerde Reward Conditioning: Alternatieve beloningen worden gegenereerd door de nominale coëfficiënten te verstoren (bijv. multiplicatieve schaling). Dit creëert een continuüm van beloningsvoorkeuren.
- Auxiliary Task Conditioning: De set $\Psi$ bestaat uit de beloningsfuncties van andere, gerelateerde taken binnen dezelfde omgeving. De agent leert deze taken "counterfactueel" door de beloningen van andere taken toe te passen op de ervaringen van de nominale taak.

Belangrijkste Bijdragen

Verbeterde Sample-efficiëntie: Door interactiegegevens te hergebruiken om diverse beloningen te genereren, verbetert RCRL de prestaties zelfs wanneer alleen geëvalueerd wordt op de nominale beloning. Het fungeert als een regularisator.
Efficiënte Transfer: Vooraf trainen met diverse beloningssignalen maakt sample-efficiënte overdracht (finetuning) naar nieuwe beloningsdoelen mogelijk.
Zero-shot Adaptatie: Een enkele agent kan tijdens de implementatie (deployment) direct reageren op nieuwe beloningsvoorkeuren door de conditioning-input ( $\psi$ ) te veranderen, zonder extra training of interactie met de omgeving.
Generalisatie: Het framework is getest op single-task, multi-task en vision-based RL, en werkt compatibel met state-of-the-art algoritmen zoals SIMBAv2, BRC en DRQv2.

Resultaten

De auteurs hebben RCRL geëvalueerd op diverse benchmarks (DeepMind Control Suite, HumanoidBench, OpenAI Gym, en vision-based taken):

Prestaties onder Nominale Beloning: RCRL overtreft de baselines (zonder conditioning) in zowel single-task als multi-task settings. Bijvoorbeeld, in multi-task settings bereikt RCRL sneller hoge prestaties (bijv. 75% van maximale prestatie na slechts 150k stappen in DMC Dogs).
Transfer en Finetuning: Wanneer een RCRL-agent wordt gefinetuned op een nieuwe taak, convergeert deze aanzienlijk sneller dan een agent die van scratch wordt getraind of een standaard agent die wordt gefinetuned. RCRL levert een sterke initialisatie.
Zero-shot Adaptatie: In experimenten met Cheetah-run (snelheid), Hopper-hop (hoogte) en Humanoid-walk (controlekosten) kon de RCRL-agent zijn gedrag direct aanpassen aan nieuwe doelen (bijv. sneller of langzamer rennen) door alleen de conditioning-input te wijzigen. Standaard agents konden dit niet zonder retraining.
Ablation Studies: Het verwijderen van de conditioning leidt tot een prestatiedaling van tot wel 40%. De methode is robuust voor de keuze van de parameter $\alpha$ (de verhouding tussen nominale en alternatieve updates), met optimale resultaten rond de 30-50% alternatieve updates.

Betekenis en Impact

RCRL biedt een schaalbaar mechanisme om robuuste en bestuurbare beleidsregels (policies) te leren zonder de eenvoud van single-task training op te offeren.

Efficiëntie: Het elimineert de noodzaak om extra data te verzamelen voor alternatieve doelen; bestaande data wordt "hergebruikt" via counterfactuele beloningen.
Flexibiliteit: Het lost het probleem op van starre RL-systemen die niet kunnen omgaan met veranderende menselijke voorkeuren of onzekerheid in de beloningsfunctie.
Praktische Toepasbaarheid: De methode introduceert verwaarloosbare rekenkosten (enkel het berekenen van scalar beloningen) en vereist geen complexe stabilisatiemechanismen bovenop bestaande algoritmen.

Kortom, RCRL transformeert de beloningsfunctie van een statisch doel naar een dynamische, conditionele input, waardoor RL-agenten veel flexibeler en robuuster worden in complexe, veranderende omgevingen.

Reward-Conditioned Reinforcement Learning

1. De "Multitask Chef" vs. De "Eenzame Kok"

2. De "Stuurknop" voor het gedrag

3. Waarom is dit zo slim?

Samenvatting in één zin

Probleemstelling

Methodologie: Reward-Conditioned RL (RCRL)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

A Theory-guided Weighted L2L^2L2 Loss for solving the BGK model via Physics-informed neural networks

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

A Theory-guided Weighted $L^2$ Loss for solving the BGK model via Physics-informed neural networks