Safe Probabilistic Planning for Human-Robot Interaction using Conformal Risk Control

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot bestuurt die door een drukke mensenmenigte moet lopen, bijvoorbeeld in een winkelcentrum of op een drukke hoek. Het grootste probleem? Mensen zijn onvoorspelbaar. Soms stappen ze links, soms rechts, en soms stopt iemand plotseling.

Als de robot te voorzichtig is, staat hij als een blok en komt hij nooit aan zijn bestemming. Als hij te stout is, botst hij met iemand.

Dit artikel introduceert een slimme nieuwe manier om robots veilig en efficiënt te laten bewegen: Conformal Risk Control (CRC) gekoppeld aan Control Barrier Functions (CBF). Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. De "Onzichtbare Veiligheidsbubbel" (CBF)

Stel je voor dat de robot een onzichtbare bubbels om zich heen heeft. Als een mens te dichtbij komt, barst de bubbel en moet de robot stoppen of uitwijken. Dit noemen ze een Control Barrier Function.

Het oude probleem: In het verleden was deze bubbel altijd even groot, ongeacht de situatie.
- Als de robot door een lege gang liep, was de bubbel nog steeds groot, waardoor hij onnodig traag en zenuwachtig deed.
- Als de robot door een drukke menigte liep, was diezelfde bubbel misschien te klein, waardoor hij te dicht bij mensen kwam en gevaar liep.

2. De "Slimme Regelaar" (Conformal Risk Control)

De auteurs van dit papier hebben een oplossing bedacht: laat de robot zijn bubbels dynamisch aanpassen op basis van hoe onzeker hij is.

Stel je voor dat de robot een slimme regisseur is die een film draait.

De "Verkeersdrukte" (Onzekerheid): Als de robot ziet dat mensen onvoorspelbaar bewegen (bijvoorbeeld in een drukke menigte), zegt de regisseur: "Oké, de situatie is chaotisch. Laten we de veiligheidsbubbel groter maken!" De robot wordt dan voorzichtig, gaat langzamer en houdt meer afstand.
De "Rustige Straat" (Zekerheid): Als de robot ziet dat de mensen rustig en voorspelbaar lopen, zegt de regisseur: "Geen paniek, alles is duidelijk. Laten we de bubbel iets kleiner maken." De robot kan dan sneller en efficiënter bewegen zonder onnodig te wachten.

3. Hoe werkt het? (De "Proefneming")

Hoe weet de robot precies hoe groot die bubbel moet zijn? Dat is het geniale deel van hun methode.

In plaats van te gokken of wiskundige formules te gebruiken die vaak fout gaan, leert de robot uit ervaring (data).

De Oefensessie: De robot heeft eerst in een virtuele wereld geoefend met duizenden scenario's. Hij heeft gekeken: "Als ik voorspelde dat iemand links zou gaan, maar die ging rechts, hoe groot was de fout?"
De "Veiligheidsmarge": Op basis van die oefeningen berekent de robot een veiligheidsmarge (een extra buffer).
- Als de voorspelling vaak fout gaat (hoge onzekerheid), wordt de marge groot.
- Als de voorspelling goed is (lage onzekerheid), wordt de marge klein.

Dit noemen ze Conformal Risk Control. Het is een wiskundige manier om te zeggen: "Ik garandeer met 99% zekerheid dat ik niet zal crashen, zolang ik maar deze extra buffer hanteer."

4. Wat is het resultaat?

In de experimenten hebben ze getest hoe deze robot zich gedroeg in vergelijking met andere methoden:

De "Stijve" Robot (CBF-QP): Deze robot keek niet naar onzekerheid. Hij botste vaak met mensen omdat hij dacht dat hij zijn pad kon bewaren, of hij stopte te vaak omdat hij te bang was.
De "Angstige" Robot (Fixed CRC): Deze robot hield altijd een enorme veiligheidsbubbel aan. Hij was veilig, maar liep zo traag dat hij nooit op tijd aankwam.
De "Slimme" Robot (Online CRC-SF - de winnaar): Deze robot past zich aan.
- In drukke situaties wordt hij voorzichtig en wacht hij geduldig tot mensen voorbij zijn.
- In rustige situaties loopt hij vlot en snel.
- Resultaat: Minder botsingen, maar hij komt wel veel sneller op zijn bestemming dan de angstige robot.

Samenvattend

Deze paper beschrijft een robot die niet blindelings volgt, maar verstandig inschat. Het is alsof je een ervaren fietser bent die door een drukke stad rijdt: je remt niet af als er niemand is, maar je wordt wel extra voorzichtig en houdt meer afstand als je ziet dat er kinderen spelen of als het regent en de weg glad is.

De robot gebruikt wiskunde om die "ervaring" te simuleren, zodat hij altijd veilig blijft, maar nooit onnodig traag is. Dit is een grote stap voor het veilig laten werken van robots in onze echte, chaotische wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Safe Probabilistic Planning for Human-Robot Interaction using Conformal Risk Control", vertaald en samengevat in het Nederlands.

Titel: Veilige Probabilistische Planning voor Mens-Robot Interactie met Conformal Risk Control

Auteurs: Jake Gonzales, Kazuki Mizuta, Karen Leung, Lillian J. Ratliff (Universiteit van Washington)

1. Het Probleem

De veilige inzet van autonome robots in menselijke omgevingen (zoals zelfrijdende auto's of service-robots) staat voor fundamentele uitdagingen door de onvoorspelbaarheid van menselijk gedrag. Menselijk gedrag is:

Multimodaal: Er kunnen meerdere mogelijke gedragingen zijn (bijv. links of rechts passeren).
Afhankelijk van geschiedenis: Toekomstig gedrag hangt af van eerdere interacties.

Bestaande methoden voor veiligheidskritieke controle maken vaak simplistische aannames over verdelingen (bijv. Gaussiaans) of gebruiken sampling-methoden die geen formele veiligheidsgaranties bieden of te rekenintensief zijn voor real-time toepassing. Het doel is een algoritme te ontwikkelen dat complexe onzekerheid aankan zonder overmatig conservatief te zijn, terwijl het kwantificeerbare vertrouwen biedt in het naleven van veiligheidsbeperkingen.

2. Methodologie

De auteurs stellen een nieuw raamwerk voor dat Control Barrier Functions (CBF's) combineert met Conformal Risk Control (CRC).

A. Kernconcepten

Control Barrier Functions (CBF): Deze bieden theoretische garanties voor veiligheid door een veiligheidsset $S$ invariant te houden. In een deterministische setting wordt een controller ontworpen die de robot binnen deze set houdt.
Onzekerheid en Discretisatie: In de praktijk werkt de robot in discrete tijd en kent de menselijke actie $u_H$ geen deterministisch model. De robot moet een veiligheidsbeperking afdwingen die geldt met een hoge waarschijnlijkheid, gezien de stochastische aard van menselijke acties.
Conformal Risk Control (CRC): In plaats van alleen voorspellingsintervallen te construeren (zoals bij traditionele conformal prediction), gebruikt CRC een verliesfunctie om de verwachte "risico" (de kans op schending van veiligheidsbeperkingen) direct te controleren. Dit is distribution-vrij en werkt ook bij niet-stationaire data.

B. Het Voorstel: CRC-SF (Safety Filter)

Het paper introduceert een veiligheidsfilter dat dynamisch een veiligheidsmarge ( $\lambda$ ) aanpast op basis van de huidige context en onzekerheid.

Robuuste CBF: De auteurs definiëren een robuuste veiligheidsset die rekening houdt met discretisatiefouten en een marge $\eta$ .
Voorspellingsfouten: Omdat de menselijke actie wordt geschat (via een model), is er een fout tussen de werkelijke barrière-waarde $B$ en de voorspelde waarde $\hat{B}$ .
Dynamische Marge ( $\lambda$ ):
- Een veiligheidsmarge $\lambda$ wordt toegevoegd aan de CBF-beperking: $\hat{B} - \lambda \geq 0$ .
- Een groter $\lambda$ maakt de beperking strenger (conservatiever) en dekt meer onzekerheid.
- CRC-algoritme: Het systeem gebruikt historische data om $\lambda$ zo te kiezen dat de verwachte schending van de veiligheidsbeperking onder een door de gebruiker gespecificeerde drempel $\alpha$ blijft.
- Online Adaptatie: Een LSTM-netwerk wordt getraind om $\lambda$ te voorspellen op basis van de huidige staat van de robot, de mens, de afstand en de voorspelde barrière-waarde. Dit stelt de robot in staat om in situaties met hoge onzekerheid (bijv. een drukke menigte) conservatiever te zijn, en in veilige situaties efficiënter te handelen.

3. Belangrijkste Bijdragen

Nieuw Veiligheidsraamwerk: De eerste integratie van Conformal Risk Control met CBF's voor mens-robot interactie, wat formele probabilistische veiligheidsgaranties biedt.
Theoretische Analyse: Een rigoureuze analyse die de link legt tussen CRC-gebaseerde onzekerheidskwantificering en probabilistische veiligheidsgaranties voor elk tijdstip (niet alleen gemiddeld over tijd).
Aannames-arm Algoritme: Een methode voor dynamische aanpassing van veiligheidsmarges die geen specifieke verdelingsaannames vereist en rekening houdt met tijdsafhankelijkheid (non-exchangeable data).
Empirische Validatie: Toepassing op realistische scenario's met menselijk gedrag gemodelleerd op basis van echte voetgangersdata.

4. Experimentele Resultaten

De methode (Online CRC-SF) werd getest in zowel single-agent (mens vs. robot) als multi-agent (menigte) scenario's en vergeleken met baselines:

CBF-QP: Geen rekening gehouden met onzekerheid.
Fixed CRC-SF: Gebruikt een vaste, conservatieve marge.
MPPI: Sampling-based methode zonder formele garanties.

Resultaten:

Single-agent scenario:
- CBF-QP: Hoog succes in het bereiken van het doel, maar 38,8% botsingsratio.
- Fixed CRC-SF: Zeer veilig (0% botsingen), maar extreem conservatief (slechts 14% succes in doelbereiking).
- Online CRC-SF: Bereikte de beste balans: 3% botsingen en 84,8% succes in doelbereiking.
Multi-agent scenario:
- De methode presteerde consistent goed over vijf verschillende testconfiguraties.
- Het verminderde botsingen aanzienlijk ten opzichte van CBF-QP en MPPI, terwijl het veel efficiënter was dan de vaste marge-methode.
- Gedrag: De robot toonde proactief gedrag: in onzekere situaties "wachtte" de robot of vertraagde hij, terwijl hij in veilige situaties soepel doorstroomde.

5. Significantie

Dit paper is significant omdat het een brug slaat tussen statistische verificatie (conformal prediction) en controletheorie (CBF's).

Formele Garanties: Het biedt zeldzame, formele probabilistische garanties voor veiligheid in real-time, zelfs bij complexe, niet-stationaire menselijk gedrag.
Balans: Het lost het klassieke dilemma op tussen "veiligheid" en "efficiëntie" door de conservatievenheid dynamisch aan te passen in plaats van een vaste, overmatig veilige marge te gebruiken.
Toepasbaarheid: De aanpak is rekenefficiënt genoeg voor real-time gebruik en kan worden toegepast op diverse robotsystemen die in menselijke omgevingen opereren.

Kortom, de auteurs hebben een systeem ontwikkeld dat robots in staat stelt om risico-bewust te handelen: ze worden voorzichtig wanneer de onzekerheid groot is, en durven meer risico te nemen wanneer de situatie veilig is, alles binnen strikte wiskundige veiligheidskaders.