Off-Policy Safe Reinforcement Learning with Constrained Optimistic Exploration

Each language version is independently generated for its own context, not a direct translation.

Titel: COX-Q: De Slimme Leerling die niet te Dapper is

Stel je voor dat je een robot wilt leren om een auto te besturen of een hond te laten rennen. Je wilt dat hij zo snel mogelijk naar zijn bestemming komt (dat is de beloning), maar hij mag absoluut niet tegen bomen aanrijden of over de rand van een klif vallen (dat is de veiligheid).

In de wereld van kunstmatige intelligentie heet dit Safe Reinforcement Learning. Het probleem is dat robots vaak "leren door te proberen". Ze proberen dingen uit om te zien wat er gebeurt. Maar als ze te veel proberen, raken ze in gevaar. Als ze te voorzichtig zijn, leren ze nooit iets nieuws.

Deze paper introduceert een nieuwe methode genaamd COX-Q. Laten we het uitleggen met een paar creatieve vergelijkingen.

1. Het Probleem: De Dappere maar Onvoorzichtige Leerling

Stel je voor dat je een leerling hebt die een fiets wil leren rijden.

De oude methode (Off-policy): De leerling leest een handboek en probeert alles wat hij erin ziet. Het probleem? Het handboek is niet perfect. Soms denkt de leerling: "Ik denk dat ik deze steile helling veilig kan nemen," terwijl hij eigenlijk in de modder belandt. Hij heeft geen gevoel voor de grenzen. Hij rijdt te hard, maakt fouten, en kost veel tijd en energie om die fouten te herstellen.
De andere methode (On-policy): De leerling krijgt een strenge instructeur die altijd bij hem in de buurt staat. Hij leert heel veilig, maar hij leert ook heel langzaam omdat hij niet zelfstandig mag experimenteren.

COX-Q is als een slimme leerling met een slimme kompas en een automatische rem.

2. De Twee Magische Onderdelen van COX-Q

COX-Q lost het probleem op met twee slimme trucjes:

Truc 1: Het "Slimme Kompas" (Cost-Constrained Optimistic Exploration)

Normaal gesproken willen robots twee dingen:

Zo snel mogelijk naar de finish (Hoge beloning).
Geen ongelukken maken (Lage kosten).

Soms botst deze wens met elkaar. Om snel te zijn, moet je misschien een gevaarlijke bocht nemen. Om veilig te zijn, moet je langzaam gaan.

De oplossing: COX-Q gebruikt een wiskundig kompas (genaamd Policy-MGDA). Stel je voor dat je twee vrienden hebt die je tegenstrijdige adviezen geven. De ene zegt: "Ga hard!" en de andere: "Ga voorzichtig!"
- Een domme robot luistert naar de eerste en crasht.
- COX-Q luistert naar beide, maar zoekt een perfect compromis. Hij zoekt een richting waar hij beetje sneller kan gaan, maar waar hij absoluut niet in de gevaarlijke zone terechtkomt.
- De "Adaptieve Rem": Als de robot merkt dat hij te dicht bij de gevaarlijke rand komt, past hij zijn stapgrootte direct aan. Het is alsof hij een onzichtbare rem heeft die automatisch harder trekt naarmate hij dichter bij een gevaar komt, zodat hij nooit over de grens rijdt.

Truc 2: De "Voorspellers met een Zekere Blik" (Truncated Quantile Critics)

Robots moeten vaak gokken over de toekomst. "Als ik hier draai, wat gebeurt er dan?"

Het probleem: Robots zijn vaak te optimistisch. Ze denken: "Ik denk dat dit veilig is," terwijl het eigenlijk gevaarlijk is. Ze zien alleen het gemiddelde en vergeten de rare, gevaarlijke uitzonderingen.
De oplossing: COX-Q gebruikt een team van 5 voorspellers (critics). In plaats van één gemiddelde voorspelling te doen, kijken ze naar het hele spectrum van mogelijke uitkomsten.
- Ze kijken niet alleen naar het gemiddelde, maar ook naar de slechtste mogelijke scenario's (de "staart" van de verdeling).
- Als ze zien dat er een kleine kans is op een ongeluk, nemen ze dat serieus. Ze worden een beetje "paranoïde" (in een goede zin), zodat ze niet in gevaarlijke situaties terechtkomen.
- Ze gebruiken ook een trucje om hun eigen onzekerheid te meten. Als ze niet zeker zijn, zijn ze extra voorzichtig.

3. Wat Leverde dit Op? (De Resultaten)

De auteurs hebben COX-Q getest in drie moeilijke situaties:

Robots die rennen: Robots moesten rennen zonder te struikelen. COX-Q leerde veel sneller dan de anderen en viel bijna nooit.
Robots die navigeren: Robots moesten door een doolhof met obstakels. COX-Q vond de weg sneller en raakte minder vaak de muren.
Autonoom rijden: Een auto moest in druk verkeer rijden. Dit is heel moeilijk. COX-Q reed veiliger dan de concurrenten en maakte minder ongelukken tijdens het leren.

Samenvatting in één zin

COX-Q is een slimme manier om robots te leren, waarbij ze durven te experimenteren om snel te leren, maar altijd een onzichtbare veiligheidsriem dragen die ze automatisch vastzet als ze te dicht bij de gevaarlijke rand komen.

Waarom is dit belangrijk?
Omdat we in de echte wereld (zoals bij zelfrijdende auto's of robots in ziekenhuizen) geen fouten kunnen maken. We kunnen niet wachten tot de robot "toevallig" veilig leert. We hebben een methode nodig die snel leert én altijd veilig blijft. COX-Q doet precies dat.

Each language version is independently generated for its own context, not a direct translation.

Titel: Off-Policy Safe Reinforcement Learning with Constrained Optimistic Exploration (COX-Q)

Publicatie: ICLR 2026 (voorgesteld)
Auteurs: Guopeng Li, Matthijs T. J. Spaan, Julian F. P. Kooij (TU Delft)

1. Het Probleem

Veel real-world toepassingen van Reinforcement Learning (RL), zoals robotica en autonoom rijden, vereisen strikte veiligheidsbeperkingen. Deze worden vaak gemodelleerd als een Constrained Markov Decision Process (CMDP), waarbij een agent de opbrengst (reward) moet maximaliseren terwijl de cumulatieve kosten (safety costs) onder een bepaalde drempel $d$ blijven.

Hoewel off-policy RL-methoden (zoals SAC) zeer sample-efficiënt zijn door gebruik te maken van een replay buffer, worstelen ze met veiligheidsproblemen:

Onderschatting van kosten: Off-policy methoden hebben de neiging om cumulatieve kosten te onderschatten, wat leidt tot onveilige beleidslijnen.
Gebrek aan kostenbeperkte exploratie: Bestaande off-policy methoden verkennen vaak zonder rekening te houden met de kostenbeperking tijdens het verzamelen van data. Dit kan leiden tot onbeperkte kosten tijdens de training, wat onaanvaardbaar is voor veiligheidskritieke toepassingen.
Bestaande oplossingen: De meeste veilige RL-methoden zijn on-policy (zoals PPO-varianten), wat minder sample-efficiënt is. Off-policy methoden die wel bestaan (zoals WCSAC of ORAC), slagen er vaak niet in om de kostenbeperking strikt te handhaven tijdens zowel de dataverzameling als de implementatie.

Kernvraag: Hoe kan off-policy safe RL zowel hoge data-efficiëntie behouden als robuuste beperkingen handhaven tijdens dataverzameling en implementatie?

2. Methodologie: COX-Q

De auteurs stellen COX-Q (Constrained Optimistic eXploration Q-learning) voor, een off-policy primal-dual algoritme dat twee kerncomponenten integreert:

A. Kosten-beperkte Optimistische Exploratie (COX)

Dit onderdeel lost het probleem op dat de agent tijdens de exploratie onveilige gebieden binnenkomt of dat reward en cost doelen conflicteren.

Oplossing van Gradiëntconflicten (Policy-MGDA): In veilige gebieden volgt de exploratie de reward-gradiënt. In onveilige gebieden (waar de kosten drempel $d$ overschrijden) kunnen de gradiënten voor reward en cost conflicteren. COX-Q gebruikt een aangepaste versie van het Multiple Gradient Descent Algorithm (MGDA) in de actieruimte. Hiermee wordt een gezamenlijke exploratiegradiënt $g^*$ gevonden die zowel de verwachte opbrengst verhoogt als de kosten verlaagt (of ten minste niet verhoogt), in plaats van een simpele som van de gradiënten te gebruiken.
Adaptieve Staplengte: Om te garanderen dat de verwachte kosten tijdens een exploratiestap de drempel $d$ niet overschrijden, wordt de staplengte $\eta$ dynamisch aangepast. Als een stap zou leiden tot een kostenoverschrijding, wordt de stap verkleind tot het maximale niveau dat nog binnen de veilige grenzen valt. Dit wordt gedaan via een bi-level optimalisatieprobleem.
Vertrouwenregeling: De maximale stapgrootte wordt adaptief aangepast op basis van de recente kosten in de replay buffer om te voorkomen dat de exploratie volledig stopt of oncontroleerbaar wordt.

B. Conservatieve Distributionele Waardelering (TQC)

Om de bias in kosten- en reward-schattingen te verminderen en stabiliteit te bieden, maakt COX-Q gebruik van Truncated Quantile Critics (TQC).

Distributionele RL: In plaats van alleen de verwachte waarde te leren, leren meerdere critic-netwerken de volledige verdeling van de terugkeer (return) en kosten.
Truncatie: Om overoptimisme (overestimation bias) te voorkomen, worden de uiterste kwantielen (de "staarten" van de verdeling) afgesneden. Voor kosten worden de onderste kwantielen gebruikt (conservatieve schatting), en voor rewards de bovenste (optimistische schatting).
Onzekerheidskwantificering: De verspreiding van de voorspellingen van de verschillende critic-netwerken wordt gebruikt om epistemische onzekerheid te schatten. Dit wordt gebruikt om de grenzen voor de exploratie (optimisme) aan te passen: bij hoge onzekerheid wordt de agent voorzichtiger.

3. Belangrijkste Bijdragen

Nieuwe Exploratiestrategie: De introductie van een kosten-beperkte optimistische exploratiestrategie die gradiëntconflicten tussen reward en cost oplost via Policy-MGDA in de actieruimte.
Geïntegreerd Framework: COX-Q combineert voor het eerst kosten-beperkte exploratie met conservatieve distributionele waardelering in een enkel off-policy framework.
Adaptieve Controle: Een mechanisme om de exploratiestapgrootte dynamisch aan te passen op basis van de huidige kostenbeperking, wat zorgt voor controleerbare dataverzameling.
Theoretische Onderbouwing: Formele afleidingen (Lemma's) voor de optimale exploratiegradiënt en staplengte onder kostenbeperkingen.

4. Resultaten

COX-Q is getest op drie benchmarks: Safe Velocity (robot locomotie), Safe Navigation (Safety-Gymnasium), en SMARTS (autonoom rijden).

Sample Efficiency: COX-Q presteert aanzienlijk beter dan on-policy baselines (zoals CUP, RCPO, CPPOPID) in termen van sample efficiency. Het bereikt hogere cumulatieve opbrengsten met minder data.
Veiligheid tijdens Training: In tegenstelling tot veel off-policy methoden, houdt COX-Q de kosten tijdens het verzamelen van data (training) onder de vooraf bepaalde drempel. On-policy methoden hebben dit ook, maar zijn minder efficiënt; andere off-policy methoden (zoals ORAC) overschrijden vaak de kosten tijdens training.
Testprestaties: COX-Q behaalt zeer lage kosten tijdens de testfase (vaak dicht bij nul) terwijl het een hoge opbrengst behoudt.
Specifieke Bevindingen:
- Bij Safe Velocity (dichte kosten) controleert COX-Q de trainingkosten effectief en presteert het beter dan TQC alleen of ORAC.
- Bij Safe Navigation (spaarzame kosten) is de prestatie vergelijkbaar met de state-of-the-art, waarbij de beperkende factor vaak de bias in de kostenschatting is in plaats van de exploratiestrategie.
- Bij SMARTS (autonoom rijden) reduceert COX-Q het aantal onveilige gebeurtenissen (botsingen, van de weg rijden) tijdens training en test significant ten opzichte van ORAC en CAL, zonder over-conservatief gedrag (time-outs) te vertonen.

5. Betekenis en Conclusie

Dit paper vult een kritieke kennislacune op in het veld van Reinforcement Learning. Het toont aan dat off-policy RL, dat traditioneel als onveilig wordt beschouwd vanwege het gebrek aan controle tijdens exploratie, veilig en efficiënt kan worden gemaakt voor veiligheidskritieke toepassingen.

Kernboodschap: Door de exploratie expliciet te beperken door kosten (via Policy-MGDA en adaptieve stapgrootte) en te combineren met robuuste distributionele waardeschattingen (TQC), kan COX-Q de voordelen van off-policy learning (hoge data-efficiëntie) behouden zonder in te leveren op veiligheid. Dit maakt het een veelbelovende kandidaat voor toepassingen zoals autonoom rijden en robotica, waar data verzamelen in de echte wereld duur en riskant is.

Beperkingen: De auteurs merken op dat de kwaliteit van de onzekerheidskwantificering afhankelijk is van de diversiteit van de critic-netwerken, wat een uitdaging kan zijn bij zeer zeldzame (out-of-distribution) situaties. Ook blijft het effectief toepassen in omgevingen met zeer spaarzame kosten signalen een uitdaging.