Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

Deze paper introduceert een effectieve twee-fasen leercurriculum voor robotbesturing waarbij taakspecifieke doelen en gedragsaspecten worden ontkoppeld, wat leidt tot betere prestaties en robuustheid vergeleken met directe training op een volledig beloningssysteem.

Kilian Freitag, Knut Åkesson, Morteza Haghir Chehreghani

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een complexe taak uit te voeren, zoals een blikje van de grond tillen of door een labyrint lopen. In de wereld van robotica gebruiken we vaak een techniek genaamd Versterkende Leerling (Reinforcement Learning). De robot probeert dingen, krijgt punten (beloningen) als het goed gaat, en leert zo wat wel en niet werkt.

Het probleem is dat het ontwerpen van dit puntensysteem (de "beloning") heel lastig is.

Het Probleem: Te veel regels tegelijk

Stel je voor dat je een kind leert fietsen.

  • De taak: Je moet naar de bakker toe rijden.
  • Het gedrag: Je moet niet vallen, niet te hard gaan, en zo weinig mogelijk energie verbruiken.

Als je het kind meteen zegt: "Rijd naar de bakker, maar val niet, ga niet te hard, en spaar je energie," kan het kind in de war raken. Misschien denkt het: "Als ik gewoon stilzit, val ik niet, ga ik niet te hard en verbruik ik geen energie." De robot leert dan een trucje (een 'hack') om punten te scoren zonder de eigenlijke taak te doen. Dit noemen onderzoekers reward hacking.

De Oplossing: De Twee-Fase Methode

De auteurs van dit paper, Kilian, Knut en Morteza, hebben een slimme oplossing bedacht: een leerplan in twee fasen. Ze noemen dit een "Two-Stage Reward Curriculum".

Hier is hoe het werkt, vertaald naar alledaagse analogieën:

Fase 1: De "Vrije Vrijheid" (Alleen de taak)

In de eerste fase geven we de robot alleen punten voor het bereiken van het doel.

  • Analogie: Het is alsof je het kind op een fiets met zijwielen zet in een leeg veld. Je zegt: "Rijd maar naar die boom toe, maak je geen zorgen over hoe je pedaleert of of je straks struikelt."
  • Doel: De robot leert eerst hoe het doel te bereiken. Het verkent de wereld zonder angst voor straffende regels. Het bouwt een basisvaardigheid op.

Fase 2: De "Meestertrainer" (Taak + Gedrag)

Zodra de robot de basis onder de knie heeft (het kan de boom bereiken), schakelen we over naar de tweede fase. Nu voegen we de extra regels toe: "Rijd naar de boom, maar doe het soepel, spaar energie en val niet."

  • Analogie: Nu haal je de zijwielen eraf en zeg je: "Goed zo, je kunt fietsen. Nu gaan we het moeilijker maken: wees voorzichtig, houd je evenwicht en rijdt niet als een gek."
  • Het geheim: De robot heeft al geleerd waarheen te gaan. Nu hoeft hij alleen nog maar zijn rijstijl aan te passen. Omdat hij de basis al kent, wordt hij niet meer in de war door de extra regels.

Waarom werkt dit zo goed?

De auteurs hebben ontdekt dat je de robot niet direct met alle regels moet overladen.

  1. Geen lokale optima: Als je alles tegelijk vraagt, zoekt de robot vaak de makkelijkste weg (stilzitten) in plaats van de echte oplossing. Door eerst alleen de taak te laten leren, voorkom je dat de robot in een "valkuil" terechtkomt.
  2. Slimme hergebruik: De robot slaat alle ervaringen op die hij in Fase 1 heeft op. Als hij in Fase 2 de regels aanpast, kan hij die oude ervaringen opnieuw gebruiken, maar dan berekend met de nieuwe regels. Het is alsof je een speler in een computerspel een level laat herhalen, maar nu met een nieuwe moeilijkheidsgraad, zonder dat hij het level opnieuw hoeft te spelen vanaf nul.

Wat hebben ze getest?

Ze hebben hun methode getest op verschillende robot-simulaties:

  • DM Control Suite: Robotjes die moeten rennen of zwemmen.
  • ManiSkill3: Robotarmen die blokken moeten pakken en verplaatsen.
  • Mobile Robot: Een robot die door een kamer moet navigeren zonder tegen muren aan te rijden.

In al deze gevallen deed hun methode het veel beter dan robotjes die direct met alle regels werden opgeleid. Ze waren sneller, stabieler en minder gevoelig voor fouten in het puntensysteem.

Conclusie

Kortom: Als je een robot (of een mens) iets complex wilt leren, begin dan met de basis. Laat ze eerst de hoofddoelstelling bereiken. Pas daarna voeg je de verfijningen toe (zoals energiebesparing of veiligheid). Door de taak en het gedrag uit elkaar te halen en stap voor stap te introduceren, leer je de robot veel effectiever en voorkom je dat hij trucs verzint om punten te scoren zonder echt te leren.

Het is het verschil tussen een kind dat direct een Formule 1-auto moet besturen met alle regels, en een kind dat eerst op een fiets leert rijden, en daarna pas de regels van het verkeer leert.