Oorspronkelijke auteurs: Ruiqi Xue, Lei Yuan, Kainuo Cheng, Jing-Wen Yang, Yang Yu

Gepubliceerd 2026-05-05

📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Ruiqi Xue, Lei Yuan, Kainuo Cheng, Jing-Wen Yang, Yang Yu

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren een auto te rijden. De gebruikelijke manier om een robot te leren is om hem rond te laten rijden, fouten te laten maken, tegen dingen aan te laten botsen en daaruit te leren. Maar in de echte wereld kun je een robot niet tegen een muur of een voetganger laten rijden om te zien wat er gebeurt. Dat is te gevaarlijk.

Dus geef je in plaats daarvan de robot een dataset met rijlogboeken die zijn verzameld door een menselijke bestuurder die zeer voorzichtig was en nooit een ongeluk had. De robot ziet alleen "veilig" rijden.

Het Probleem: De "Bijna-Aanrijding" Valstrik
Hier zit het lastige: alleen omdat de robot nooit een ongeluk heeft gezien in de data, betekent niet dat hij weet hoe een ongeluk er uitziet voordat het gebeurt.

Stel je een auto voor die op een muur afrijdt. In de dataset remde de menselijke bestuurder altijd net voordat hij tegen de muur zou rijden. De robot ziet de auto veilig stoppen. Maar de robot beseft niet dat als hij niet zou remmen, hij binnen twee seconden zou crashen. Hij denkt: "Oh, zo snel rijden is prima!" omdat hij het ongeluk nooit heeft gezien.

Dit is het kernprobleem dat het artikel adresseert: Hoe leer je veiligheid als je geen voorbeelden van gevaar hebt, alleen voorbeelden van mensen die het net hebben weten te voorkomen?

De Oplossing: PROCO (De "Wat-als" Simulator)
De auteurs stellen een nieuwe methode voor genaamd PROCO. Denk hierbij aan een veiligheidscoach die twee hoofdtools gebruikt: een Kristallen Bol (een model van hoe de wereld werkt) en een Veiligheidshandleiding (geschreven door een superintelligente AI).

Hier is hoe het werkt, stap voor stap:

1. De Kristallen Bol (Het Dynamischemodel)

Eerst leert de robot een "Kristallen Bol" van de veilige rijlogboeken. Dit is geen magie; het is een wiskundig model dat voorspelt: "Als ik hier ben, en ik sla het stuur zo om, waar zal ik over een seconde zijn?"

De Analogie: Het is als een vliegsimulator. De robot leert de fysica van de auto zodat hij toekomstige scenario's kan bedenken zonder ze daadwerkelijk te rijden.

2. De Veiligheidshandleiding (De LLM Kostenfunctie)

Vervolgens moet de robot weten wat "onveilig" betekent. Omdat hij geen ongeluksdata heeft, vragen de onderzoekers een Groot Taalmodel (LLM) — een superintelligente AI die menselijke taal leest en begrijpt — om een "Veiligheidshandleiding" te schrijven.

De Prompt: Ze vertellen de LLM: "Hier is de regel: Raak de muur niet. Maar wees extra voorzichtig. Als je dichtbij de muur bent, behandel het alsof je er al tegenaan hebt gereden."
Het Resultaat: De LLM schrijft een computerfunctie (een stukje code) die dient als een "Kostenfunctie". Het kiest niet alleen een hoge "strafscore" voor het raken van de muur, maar ook voor het gevaarlijk dichtbij zijn ervan. Dit creëert een "veiligheidsbuffer".

3. Het "Wat-als" Spel (Proactieve Uitrollingen)

Nu komt het slimme deel. De robot gebruikt zijn Kristallen Bol om te simuleren hoe hij vanaf de veilige data die hij heeft, vooruit rijdt. Hij vraagt: "Als ik vanaf deze veilige plek rechtdoor blijf gaan, wat gebeurt er dan?"

Vanwege de Veiligheidshandleiding weet de simulator dat dichtbij de muur komen slecht is.
De simulator draait deze "Wat-als" scenario's en genereert nep-ongelukdata. Het creëert duizenden voorbeelden van "bijna-aanrijdingen" en "ongelukken" die in de echte wereld nooit daadwerkelijk hebben plaatsgevonden, maar die wiskundig voorspeld worden om te gebeuren.

4. Leren van de Nepdata

Tot slot traint de robot op deze nieuwe, gemengde dataset:

De originele echte veilige data.
De gesimuleerde "ongeluk" data gegenereerd door de Kristallen Bol en gemarkeerd door de Veiligheidshandleiding.

Door te trainen op deze gesimuleerde gevaren, leert de robot de "gevaarzone" te herkennen (de toestanden die zouden leiden tot een ongeluk) en leert hij daar weg te blijven, zelfs al is hij in het echte leven nooit daadwerkelijk gecrasht.

Waarom is dit beter?

Oude manier: Als je een robot alleen veilige data laat zien, kan hij denken dat "snel rijden dichtbij de muur veilig is" omdat hij nooit een ongeluk heeft gezien. Hij kan de gevaarzone in drijven en crashen wanneer hij wordt ingezet.
PROCO manier: Het creëert proactief de gevaarscenario's die het nodig heeft om van te leren. Het zegt effectief: "Ik weet dat ik nog niet gecrasht ben, maar mijn Kristallen Bol zegt dat ik het zal doen als ik nu niet vertraag."

De Resultaten

De auteurs testten dit op 17 verschillende robottaken (zoals een auto rijden, een robotarm bewegen, of zwemmen).

Ze vergeleken PROCO met andere geavanceerde methoden die probeerden veiligheid te leren van dezelfde "alleen-veilige" data.
De Uitkomst: PROCO was dramatisch beter. In veel gevallen verminderde het veiligheidsviolaties (ongelukken) met meer dan 400% ten opzichte van de andere methoden. Het leerde veel betrouwbaarder veilig te blijven omdat het de toekomstige gevaren "kon zien" die de andere methoden niet konden zien.

Kortom: PROCO is een manier om een robot veilig te leren door het een "Wat-als" spel te laten spelen met behulp van een simulator en een slimme taalgids, zodat het leert rampen te vermijden die het nooit daadwerkelijk heeft meegemaakt.

Each language version is independently generated for its own context, not a direct translation.

Technische Samenvatting: Model-gebaseerde Proactieve Kostengeneratie voor het Offline Leren van Veilige Beleid met Beperkte Schendingsdata

1. Probleemstelling

Veilig Reinforcement Learning (RL) heeft tot doel beleid af te leiden dat aan vooraf gedefinieerde veiligheidsbeperkingen voldoet, wat cruciaal is voor toepassingen zoals autonoom rijden en robotica. Hoewel offline veilig RL een paradigma biedt om te leren uit vooraf verzamelde datasets zonder risicovolle online exploratie, staan bestaande methoden voor een fundamentele beperking in scenario's met hoge stakes: de schaarste of totale afwezigheid van onveilige samples.

In veel praktische dataverzamelingsprocessen (bijvoorbeeld robotmanipulatie) voorkomen externe ingrepen vaak dat agenten onveilige toestanden bereiken, wat resulteert in datasets die bijna volledig bestaan uit veilige trajecten. Conventionele offline veilig RL-methoden, die vertrouwen op het leren van kostenwaardefuncties uit overvloedige onveilige samples om veiligheidsgrenzen te definiëren, falen in deze setting. Ze hebben de neiging om alle waargenomen data als uniform veilig te behandelen, en negeren "veilig-maar-niet-uitvoerbaar" toestanden—toestanden die momenteel voldoen aan beperkingen maar onvermijdelijk deze binnen enkele stappen schenden door dynamica (bijvoorbeeld traagheid). Deze nalatigheid leidt tot falen bij de implementatie van beleid, waarbij agenten afdrijven naar onveilige gebieden.

De kernuitdaging is: Hoe kunnen we een veilig beleid offline leren wanneer onveilige samples schaars zijn of volledig ontbreken?

2. Methodologie: PROCO

De auteurs stellen PROCO (Model-Based Proactive Cost Generation) voor, een model-gebaseerd offline veilig RL-kader dat is ontworpen om niet-uitvoerbare toestanden te identificeren en veilige beleid te leren uit datasets met weinig of geen onveilige samples. De methodologie integreert drie kerncomponenten:

A. LLM-ondersteunde Conservatieve Kostfunctiegeneratie

Om de kloof die wordt veroorzaakt door het ontbreken van onveilige data te overbruggen, maakt PROCO gebruik van Large Language Models (LLM's) om kennis in natuurlijke taal op te nemen in het leerproces.

Input: De LLM ontvangt taakinformatie ( $L_{task}$ ), een beschrijving in natuurlijke taal van veiligheidsbeperkingen ( $L_{cost}$ ), en expliciete instructies ( $L_{inst}$ ) om een kostfunctie te genereren die conservatiever is dan de strikte beperkingsdefinitie.
Output: Een Python-functie $\bar{c}$ die toestanden labelt als onveilig (1) of veilig (0).
Validatie en Feedbacklus: Aangezien LLM-uitvoer onbetrouwbaar kan zijn, hanteert PROCO een validatiemechanisme:
1. Veiligheidscontrole: De gegenereerde kostfunctie wordt gevalideerd tegen een kleine set bekende onveilige samples ( $D_{unsafe}$ , $\le 100$ samples). Het moet 100% nauwkeurigheid op deze set bereiken om te garanderen dat geen enkele bekende onveilige toestand wordt gemist.
2. Conservatismecontrole: De functie wordt geëvalueerd op de veilige dataset ( $D$ ). Het aandeel veilige samples dat als onveilig wordt gelabeld, wordt gemeten. Als dit aandeel binnen een door hyperparameters gecontroleerd bereik $[p_{min}, p_{max}]$ valt, wordt de functie geaccepteerd.
3. Verfijning: Als de functie te conservatief is of niet conservatief genoeg, wordt een feedbackbeschrijving ( $L_{feed}$ ) gegenereerd en teruggevoerd naar de LLM om de kostfunctie te verfijnen.

B. Dynamica Model-gebaseerde Identificatie van Uitvoerbaarheid

PROCO leert een ensemble dynamica-model $\hat{T}$ uit de offline data. Om niet-uitvoerbare toestanden te identificeren zonder waargenomen schendingen, voert het vertakte modelrollouts uit:

Startend vanaf offline datasamples simuleert het model toekomstige trajecten.
Er wordt een conservatieve uitvoerbare Bellman-operator ( $\bar{B}^*$ ) geïntroduceerd. In tegenstelling tot standaardoperatoren, overweegt $\bar{B}^*$ de worst-case overgang binnen het ensemble van dynamica-modellen om robuustheid tegen modelonzekerheid te garanderen.
Dit proces genereert proactief diverse contrafactuele onveilige samples. Door toestanden nabij werkelijke onveilige toestanden als onveilig te labelen (via de conservatieve kostfunctie), verkort de methode effectief de overgangsstappen van niet-uitvoerbaar naar onveilig, waardoor de impact van modelfouten op de identificatie van uitvoerbaarheid wordt verminderd.

C. Beleid Lerende Pipeline

Data Augmentatie: Het geleerde dynamica-model $\hat{T}$ en de conservatieve kostfunctie $\bar{c}$ worden gebruikt om modelrollouts uit te voeren. Trajecten die veiligheidschendingen bevatten (volgens $\bar{c}$ ) worden toegevoegd aan een synthetische dataset $D_{\hat{T}}$ .
Opnieuw Labelen: De offline dataset $D$ wordt opnieuw gelabeld met kosten voor beperkingsschendingen met behulp van $\bar{c}$ .
Waardefunctie Update: Het algoritme update de waardefunctie voor beperkingsschendingen ( $V_h$ ) en de actie-waardefunctie ( $Q_h$ ) met behulp van de gecombineerde dataset ( $D \cup D_{\hat{T}}$ ). Het maakt gebruik van reverse expectile-regressie om de minimalisatie-operator in de uitvoerbare Bellman-update te benaderen.
Beleidsoptimalisatie: Het beleid wordt bijgewerkt met behulp van de originele offline dataset $D$ , geleid door de kostencritici die zijn geleerd uit de geaugmenteerde data.

3. Belangrijkste Bijdragen

Probleemformulering: Het artikel identificeert en formaliseert de uitdaging om veilige beleid te leren uit "alleen-veilige" datasets, waarbij niet-uitvoerbare toestanden niet te onderscheiden zijn van veilige toestanden zonder onveilige samples.
Kennis-Data Integratie: Het introduceert een nieuw kader (PROCO) dat veiligheidspecificaties in natuurlijke taal (via LLM's) integreert met empirische offline data om conservatieve kostfuncties te genereren, waardoor risicoschatting mogelijk wordt zonder waargenomen schendingen.
Proactieve Identificatie van Uitvoerbaarheid: Door een geleerd dynamica-model te combineren met een conservatieve kostfunctie, synthetiseert PROCO contrafactuele onveilige samples om niet-uitvoerbare toestanden te identificeren, waarmee het het "veilig-maar-niet-uitvoerbaar" blinde punt van bestaande methoden aanpakt.
Theoretische Garanties: De auteurs bieden theoretische analyse (Stelling 4.8) die aantoont dat het integreren van PROCO met elk basislijn offline veilig RL-algoritme de veiligheidsprestaties niet verslechtert door onderschatting van veiligheidswaarden, zelfs zonder aannames over de grootte van modelfouten.

4. Experimentele Resultaten

De auteurs hebben PROCO geëvalueerd op 17 taken uit de Safety-Gymnasium-benchmark (Navigatie- en Snelheidstaken) met behulp van de OSRL-dataset, waarbij specifiek "alleen-veilige" datasets werden geconstrueerd door alle onveilige data te verwijderen.

Prestaties: PROCO presteerde aanzienlijk beter dan originele offline veilig RL-algoritmen (FISOR, LSPC, CAPS) en behavior cloning-baselines (BC, CDT) op alleen-veilige datasets.
- Het behaalde een verbetering van meer dan 400% in veiligheidsprestaties over verschillende algoritmen, waarbij sommige taken verbeteringen van meer dan 1000% vertoonden.
- In de "Ant Circle"-casestudy slaagde PROCO erin niet-uitvoerbare toestanden nabij de veiligheidsgrens te identificeren en behaalde het nul veiligheidschendingen, terwijl baselines faalden om uitvoerbare van niet-uitvoerbare toestanden te onderscheiden en aanzienlijke schendingen opliepen.
Robuustheid: De methode bleef effectief zelfs wanneer de hoeveelheid beschikbare onveilige data extreem beperkt was (bijvoorbeeld 10% van de originele onveilige dataset).
Ablatiestudies:
- Het verwijderen van het dynamica-model of de generatie van de conservatieve kostfunctie leidde tot aanzienlijke dalingen in veiligheidsprestaties.
- Het feedbackmechanisme voor de door de LLM gegenereerde kostfunctie was cruciaal voor het bereiken van het gewenste niveau van conservatisme.
- De methode toonde stabiliteit over verschillende LLM's (GPT-o4-mini, Gemini 2.5 Pro), hoewel de prestaties licht varieerden.

5. Betekenis en Claims

Het artikel claimt dat PROCO een kritieke bottleneck aanpakt bij het implementeren van veilig RL in real-world, hoge-stakes omgevingen waar het verzamelen van onveilige data onuitvoerbaar of gevaarlijk is. Door LLM's in te zetten om veiligheidsbeperkingen in natuurlijke taal te vertalen naar conservatieve kostfuncties en modelrollouts te gebruiken om proactief potentiële fouten te verkennen, stelt PROCO het leren van veilige beleid mogelijk uit datasets die anders onvoldoende zouden zijn voor veiligheidskritieke besluitvorming.

De auteurs benadrukken dat hun aanpak geen onveilige samples vereist om een veilig beleid te leren, waardoor het geschikt is voor scenario's waar data wordt verzameld via menselijke teleoperatie of externe ingrepen die botsingen voorkomen. Zij concluderen dat hoewel de methode momenteel afhankelijk is van op staat gebaseerde observaties en LLM's, het een significante stap voorwaarts is naar kennisgedreven offline veilig RL. Voor toekomstig werk wordt voorgesteld dit uit te breiden naar visuele taken met behulp van Vision-Language Models (VLM's).

Model-Based Proactive Cost Generation for Learning Safe Policies Offline with Limited Violation Data