CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Each language version is independently generated for its own context, not a direct translation.

🤖 De Veilige Leerling: Hoe Robots Leren Zonder Te Crashen

Stel je voor dat je een robot wilt leren lopen, zoals een mens. Je wilt dat hij trappen beklimt, obstakels omzeilt en niet omvalt. Je gebruikt daarvoor Reinforcement Learning (RL). Dit is een manier van leren waarbij de robot door trial-and-error (proberen en fouten maken) de beste bewegingen ontdekt.

Het probleem? RL is als een heel slim, maar ongeduldig kind. Het wil zo snel mogelijk de prijs winnen (bijvoorbeeld: "loop snel naar de finish"), en het kan soms zo ver gaan dat het gevaarlijke dingen doet om die prijs te krijgen. In de echte wereld kan dat betekenen dat de robot tegen een muur rent, omvalt of zichzelf kapot maakt.

De onderzoekers van dit paper (van Caltech) hebben een nieuwe methode bedacht, genaamd CBF-RL. Ze willen dat de robot niet alleen slim leert, maar ook veilig leert, zodat hij later zonder hulp van een "babysitter" veilig kan werken.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. Het Probleem: De "Babysitter" vs. De "Ingebouwde Gewoonte"

Vroeger hadden robotontwikkelaars twee manieren om veilig te blijven:

De "Babysitter" (Safety Filter): Je laat de robot doen wat hij wil, maar een strenge computer (de babysitter) kijkt mee. Als de robot een gevaarlijke beweging wil maken, grijpt de babysitter in en corrigeert de beweging direct.
- Nadeel: De robot leert nooit echt zelf veilig te zijn. Als je de babysitter weghaalt (bijvoorbeeld in de echte wereld), valt de robot om. Ook is de babysitter zwaar werk voor de computer; hij moet elke seconde een ingewikkelde rekensom maken.
De "Boete" (Reward Shaping): Je straft de robot met minuspunten als hij te dicht bij een gevaar komt.
- Nadeel: Dit werkt vaak niet goed genoeg. De robot leert misschien dat hij "niet te dichtbij mag komen", maar hij leert niet hoe hij dat moet doen. Hij blijft onzeker en leert langzaam.

2. De Oplossing: CBF-RL (De "Twee-in-één" Methode)

De auteurs van dit paper zeggen: "Laten we beide methoden combineren tijdens het trainen, zodat de robot de veiligheid in zijn eigen DNA opneemt."

Ze gebruiken een slimme techniek genaamd Control Barrier Functions (CBF). Denk hierbij aan een onzichtbare muur of een krachtveld rondom gevaarlijke objecten.

Hoe werkt het trainen?

Stel je voor dat je een robot traint in een virtuele wereld (zoals een videospelletje).

De Robot probeert iets: De robot denkt: "Ik ga hard rennen naar de finish!" (Dit is de nominale actie).
De Onzichtbare Muur (CBF Filter): De computer ziet dat deze snelheid de robot tegen een muur zou laten vliegen. In plaats van de robot te straffen, corrigeert de computer de beweging direct, alsof er een onzichtbare hand de robot een beetje opzij duwt.
- De Analogie: Het is alsof je een kind leert fietsen met zijwieltjes. Als het kind naar links wil sturen en in een boom zou rijden, duwen de zijwieltjes (de filter) hem terug naar het veilige pad.
De "Gevoelssensatie" (Reward): Dit is het slimme deel. De robot krijgt niet alleen de gecorrigeerde beweging, maar krijgt ook een boete voor het moment dat hij bijna de boom in wilde.
- De robot denkt: "Oei, ik wilde naar links, maar dat kostte me punten. De volgende keer probeer ik niet eens naar links te gaan, maar ga ik direct rechtdoor."

Het Resultaat:

Door dit duizenden keren te doen, leert de robot niet alleen dat hij niet tegen de boom mag, maar leert hij hoe hij zijn eigen bewegingen zo aanpast dat hij nooit in de buurt van de boom komt.

De robot internaliseert de veiligheid. Hij wordt als het ware een veilige rijder die niet meer op de zijwieltjes (de filter) hoeft te vertrouwen.

3. De Wiskundige "Magie" (Kort uitgelegd)

In het paper bewijzen ze wiskundig dat je deze "onzichtbare muur" (die eigenlijk voor continue beweging is ontworpen) kunt gebruiken in een digitale wereld die in stapjes werkt (discreet).

Vergelijking: Stel je voor dat je een auto bestuurt op een weg met gaten. De wiskunde zegt: "Zelfs als je maar elke seconde kijkt (in plaats van continu), kun je een formule gebruiken die precies berekent hoe je het stuur moet draaien om in het gat te vallen, zonder dat je een dure computer nodig hebt om dat elke seconde uit te rekenen."
Dit maakt het systeem snel en lichtgewicht. Het is niet zwaar voor de computer van de robot.

4. De Echte Test: De Unitree G1 Robot

Om te bewijzen dat dit werkt, hebben ze het getest op een echte mensachtige robot (de Unitree G1).

De Test: De robot moest een obstakelbaan afleggen en trappen beklimmen.
De Uitdaging: De robot moest trappen beklimmen zonder te struikelen, en obstakels omzeilen zonder te crashen.
Het Resultaat:
- Robots die alleen "boetes" kregen, leerden traag en vielen vaak.
- Robots die alleen een "babysitter" hadden, konden niet zonder die babysitter werken.
- De CBF-RL robot: Deze robot leerde razendsnel. Hij kon de trappen beklimmen en obstakels omzeilen. En het belangrijkste: Ze haalden de "babysitter" weg. De robot deed het veilig, alleen op basis van wat hij had geleerd. Hij kon zelfs op ruwe, buitenste trappen klimmen zonder te vallen.

Samenvatting in één zin

CBF-RL is een trainingsmethode waarbij robots leren veilig te bewegen door tijdens het oefenen direct gecorrigeerd te worden én een boete te krijgen voor gevaarlijke ideeën, zodat ze uiteindelijk veilig kunnen werken zonder dat er een computer nodig is om ze te bewaken.

Het is alsof je iemand niet alleen leert zwemmen door een reddingsboei vast te houden, maar door ze te laten voelen hoe het water ze draagt, zodat ze later zonder reddingsboei veilig kunnen zwemmen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions" in het Nederlands.

Probleemstelling

Versterkend leren (Reinforcement Learning - RL) is een krachtige methode voor het aanleren van complexe vaardigheden aan robots, zoals humanoïden. Echter, RL-optimalisatie richt zich vaak puur op prestatie, wat kan leiden tot onveilig gedrag en catastrofale fouten in real-world toepassingen. Bestaande veiligheidsaanpakken hebben twee grote nadelen:

Online Safety Filters: Traditionele methoden gebruiken Control Barrier Functions (CBF's) als een "safety filter" tijdens de uitvoering (runtime) om onveilige acties te corrigeren. Dit garandeert veiligheid, maar verhindert dat de RL-beleid (policy) de veiligheidsbeperkingen intern leert. De agent blijft afhankelijk van de filter, wat de exploratie beperkt en computatief zwaar is (oplossen van optimalisatieproblemen bij elke stap).
Reward Shaping: Het toevoegen van straffen voor onveilige toestanden in de beloningsfunctie is vaak te traag en gevoelig voor de keuze van straffingsgewichten. Het dwingt de agent niet actief tot veilig gedrag tijdens het trainen.

Het paper stelt de vraag: Hoe kunnen we RL-beleiden trainen zodat ze veiligheidsbeperkingen intern "internaliseren", zodat ze veilig kunnen opereren zonder een runtime-filter?

Methodologie: CBF-RL

De auteurs introduceren CBF-RL, een dualistische aanpak die twee componenten combineert tijdens het trainingsproces: actieve veiligheidsfiltering en barrière-geïnspireerde beloningsvorming.

1. Theoretische Basis: Continu naar Discreet

Een kernuitdaging is dat RL-omgevingen discrete tijdstappen gebruiken, terwijl CBF-theorie vaak continu is. De auteurs bewijzen wiskundig (Lemma 1 en Theorem 1) dat voor kleine tijdstappen ( $\Delta t$ ) de continu-tijd CBF-condities direct kunnen worden toegepast op discrete systemen. Dit stelt hen in staat om een gesloten-formule oplossing (closed-form solution) te gebruiken in plaats van een zware numerieke optimalisatie (QP) bij elke trainingsstap.

2. Het Dualistische Trainingsframework

Tijdens training ondergaat de RL-agent twee processen:

Actieve Filtering (Safety Filter): De door de RL-agent voorgestelde actie ( $v_{policy}$ ) wordt gefilterd via een CBF. Omdat de CBF-constraint lineair is, kan de veilige actie ( $v_{safe}$ ) analytisch worden berekend met een gesloten-formule oplossing:
$v_{safe} = v_{policy} + \frac{(b_k - a_k^T v_{policy})}{\|a_k\|^2} a_k$
Hierbij is $a_k = \nabla h(q_k)$ en $b_k = -\alpha h(q_k)$ . Dit zorgt ervoor dat de agent alleen veilige trajecten ziet tijdens de simulatie.
Beloningsvorming (Reward Shaping): Om de agent te leren waarom de filter ingreep, wordt een extra veiligheidsbeloning ( $r_{cbf}$ $r_{c b f}$ ) toegevoegd aan de totale beloning:
$r_{cbf} = \max(a_k^T v_{policy} - b_k, 0) + (\exp(-\|v_{policy} - v_{safe}\|^2 / \sigma^2) - 1)$
- Het eerste deel straft af als de filter had moeten ingrijpen (onveilige voorgestelde actie).
- Het tweede deel belooft de agent om acties te kiezen die zo dicht mogelijk bij de veilige actie liggen, waardoor de filter minder vaak hoeft in te grijpen.

3. Implementatie

Het framework is modelvrij en integreert naadloos met standaard policy-gradient algoritmen zoals PPO (Proximal Policy Optimization). Het vereist alleen de afgeleiden van een gereduceerd orde-model (bijv. kinematica/Jacobi-matrix), niet het volledige dynamische model.

Belangrijkste Bijdragen

Conceptueel: Een nieuw trainingsframework dat actieve filtering en beloningsvorming combineert, waardoor beleiden veiligheidsbeperkingen intern leren en zonder runtime-filter kunnen worden ingezet.
Theoretisch: Een wiskundig bewijs dat continu-tijd CBF's geldig zijn voor discrete RL-omgevingen onder bepaalde voorwaarden, wat leidt tot een lichtgewicht, gesloten-formule oplossing voor veiligheidsfiltering.
Praktisch: Empirische validatie op zowel simulatie (2D navigatie) als hardware (Unitree G1 humanoïde robot), waarbij wordt aangetoond dat de methode robuust is tegen onzekerheid en domeinrandomisatie.

Resultaten

De auteurs hebben hun methode getest in twee scenario's:

1. 2D Navigatie (Ablatie Studies)

Vergelijking: Ze vergeleken "Dual" (Filter + Reward), "Reward Only", "Filter Only" en "Nominal" (geen veiligheid).
Resultaat: De "Dual" methode bereikte de snelste convergentie en behaalde een succesratio van 99,0% in geteste omgevingen.
Cruciaal: De "Filter Only" methode faalde volledig (38,7% succes) wanneer de runtime-filter tijdens de test werd verwijderd. De "Dual" methode behield echter 92,7% succes zonder runtime-filter, wat aantoont dat de agent de veiligheid heeft geleerd.
Robuustheid: Bij toevoeging van dynamische ruis (domeinrandomisatie) degradeerde de "Dual" methode nauwelijks (-0%), terwijl andere methoden significant slechter presteerden.

2. Humanoïde Locomotie (Unitree G1 Robot)

Taken: Obstacle avoidance en het beklimmen van trappen (inclusief hoge trappen van 0,3m).
Hardware: De robot werd getraind in IsaacLab en vervolgens zonder runtime-filter op echte hardware getest (zero-shot sim-to-real).
Resultaten:
- De CBF-RL robot kon veilig obstakels ontwijken en trappen beklimmen, zelfs wanneer de commando's zouden leiden tot botsingen.
- Een "Nominal" beleid (zonder CBF-RL) viel of botste tegen de trappen op.
- De robot was in staat om zijn zwaartepunt aan te passen aan verschillende traphoogtes en -dieptes, zelfs in buitenomgevingen met ruwe oppervlakken.

Betekenis en Impact

CBF-RL biedt een doorbraak in veilig Reinforcement Learning voor complexe, hoog-dimensionale systemen zoals humanoïde robots.

Onafhankelijkheid: Het elimineert de noodzaak van computatief zware runtime-filters tijdens de daadwerkelijke inzet, wat essentieel is voor real-time reactievermogen.
Leren van Veiligheid: In plaats van dat de filter de agent "redt", leert de agent zelf veilige strategieën te ontwikkelen. Dit resulteert in een beleid dat niet alleen veilig is, maar ook efficiënter en minder conservatief gedrag vertoont.
Toepasbaarheid: De methode is breed toepasbaar en werkt zelfs met onnauwkeurige sensorgegevens en dynamische onzekerheid, wat het zeer geschikt maakt voor real-world robotica.

Samenvattend transformeert CBF-RL veiligheid van een externe beperking naar een intrinsiek onderdeel van het geleerde gedrag, waardoor veiligere en autonomere robots mogelijk worden.