Expert Knowledge-driven Reinforcement Learning for Autonomous Racing via Trajectory Guidance and Dynamics Constraints

Each language version is independently generated for its own context, not a direct translation.

Hoe een zelfrijdende raceauto de perfecte coureur wordt: Een verhaal over kennis, grenzen en een slimme trainer

Stel je voor dat je een kind wilt leren racen op een heel gevaarlijk circuit. Je kunt het kind niet gewoon de auto in duwen en hopen dat het vanzelf leert. Als je dat doet, zal het waarschijnlijk tegen de muur rijden, de auto kapot maken en nooit sneller worden dan een slak.

Dit is precies het probleem dat onderzoekers van de Universiteit van Tongji (China) en de Nanyang Technological Universiteit (Singapore) hebben opgelost. Ze hebben een nieuwe manier bedacht om zelfrijdende raceauto's te leren racen, genaamd TraD-RL. Laten we dit uitleggen alsof we een raceauto trainen met een super-slimme trainer.

Het Probleem: De "Probeer-en-Fout" Methode werkt niet

Normaal gesproken leren computers (kunstmatige intelligentie) door te proberen en fouten te maken. Dit noemen ze Reinforcement Learning.

Het probleem: In een raceauto gaat het razendsnel. Als de computer probeert een bocht te nemen en de auto begint te slippen, is het al te laat. De auto is al tegen de muur.
De consequentie: De computer leert te langzaam, wordt onveilig, of blijft steken in een "veilige maar trage" modus omdat hij bang is om te crashen.

De Oplossing: De "Drie Gouden Tips" van de Trainer

De onderzoekers hebben een systeem bedacht dat de computer helpt door drie dingen te doen, alsof je een beginnende coureur begeleidt:

1. De "Gouden Lijn" (Trajectoorgeleiding)

Stel je voor dat er een onzichtbare, perfecte lijn over het circuit ligt. Dit is de MCRL (Minimum Curvature Racing Line). Het is de snelste weg die je kunt nemen zonder de banden te laten slippen.

De analogie: In plaats van dat de computer blindelings rondjes rijdt, krijgt hij een bril op met een gloeiende lijn in het zicht. Hij weet precies waar hij moet zijn.
Het effect: De computer hoeft niet te raden waar de weg is. Hij kan zich focussen op hoe hij die lijn zo snel mogelijk aflegt. Dit maakt het leren veel sneller en stabieler.

2. De "Onzichtbare Veiligheidsmuur" (Dynamische Grenzen)

Zelfs als je de perfecte lijn volgt, kun je nog steeds te hard gaan en de auto laten slippen. De auto heeft fysieke grenzen: hoe snel hij kan draaien en hoe ver hij kan schuiven voordat hij de controle verliest.

De analogie: Stel je voor dat er een onzichtbare muur om de auto staat. Als de auto te hard in een bocht gaat, begint deze muur te trillen en geeft hij een harde duw terug (een waarschuwing).
De techniek: De computer gebruikt wiskundige regels (Control Barrier Functions) om deze muur te bouwen. Hij leert dat hij dicht bij de muur mag rijden (voor snelheid), maar er nooit doorheen mag. Dit zorgt ervoor dat de auto nooit de controle verliest, zelfs niet op de snelste momenten.

3. De "Stap-voor-Stap" Trainer (Curriculum Learning)

Je zou een kindje nooit direct de Formule 1-auto in zetten. Eerst rijdt het met een fiets, dan met een brommer, en pas later met een raceauto.

De analogie: De trainer van de computer doet precies hetzelfde in twee fases:
1. Fase 1 (De Leerling): De computer moet eerst de "Gouden Lijn" perfect volgen en veilig rijden. Hij mag niet te hard gaan. Het doel is stabiliteit.
2. Fase 2 (De Kampioen): Zodra hij de lijn onder de knie heeft, zegt de trainer: "Goed zo! Nu mag je de grenzen opzoeken." De computer mag nu harder gaan en proberen de fysieke limieten van de auto uit te testen, maar altijd binnen de "Onzichtbare Veiligheidsmuur".

Wat is het Resultaat?

De onderzoekers hebben dit getest in een heel realistische simulatie van het Tempelhof Airport-circuit in Berlijn (bekend van de Formule E). Ze hebben hun systeem vergeleken met andere methoden:

Andere methoden: Ofwel te traag (te bang om te crashen), ofwel te onstabiel (vaak de controle verliezen).
Deze nieuwe methode (TraD-RL): De auto werd sneller dan alle anderen én veiliger.
- Hij maakte de ronde in minder tijd.
- Hij maakte veel minder fouten waarbij de auto begon te slippen of te draaien.
- Hij kon de auto precies op het randje van de controle rijden, zonder eroverheen te vallen.

Conclusie

Kortom, deze paper laat zien dat je een zelfrijdende raceauto niet alleen op "probeer-en-fout" kunt laten leren. Je moet hem kennis geven (de perfecte lijn), grenzen stellen (de veiligheidsmuur) en hem stap voor stap laten groeien.

Het is alsof je een beginnende coureur een supercoach geeft die weet waar de snelste weg ligt, maar die ook weet precies wanneer hij moet remmen om een crash te voorkomen. Het resultaat is een auto die niet alleen veilig is, maar ook razendsnel de beste tijd rijdt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Expert Knowledge-driven Reinforcement Learning for Autonomous Racing via Trajectory Guidance and Dynamics Constraints" in het Nederlands.

Probleemstelling

Autonoom racen is een uitdagend domein binnen het onderzoek naar autonoom rijden, gekenmerkt door hoge dynamiek, sterke niet-lineariteiten in het voertuiggedrag en het opereren dicht bij de fysieke limieten van de banden. Traditionele methoden, zoals Model Predictive Control (MPC), kampen met beperkingen in modelnauwkeurigheid en robuustheid onder extreme omstandigheden.

Reinforcement Learning (RL) biedt potentieel door geen expliciete modellen te vereisen, maar staat voor drie grote uitdagingen in dit specifieke domein:

Trainingsinstabiliteit en lage sample-efficiëntie: RL-agenten hebben vaak veel interacties nodig om te convergeren, wat in fysieke systemen duur en riskant is.
Veiligheidsrisico's: Standaard RL-methoden negeren vaak expliciete veiligheidsbeperkingen, wat leidt tot onveilige acties tijdens het "trial-and-error" leerproces.
Moeilijkheid bij het vinden van optimale trajecten: In complexe omgevingen met schaarse beloningen (sparse rewards) is het voor een agent moeilijk om een optimaal racetraject te ontdekken zonder expertkennis.

Methodologie: TraD-RL

De auteurs stellen TraD-RL (Trajectory guidance and Dynamics constraints Reinforcement Learning) voor, een raamwerk dat expertkennis expliciet integreert in het leerproces. De methode bestaat uit drie kerncomponenten:

1. Trajectgeleiding via Expertkennis (Trajectory Guidance)

Om de exploratie-efficiëntie te verhogen en de agent te helpen een optimaal traject te vinden, wordt gebruikgemaakt van een Minimum Curvature Racing Line (MCRL).

Generatie: De MCRL wordt vooraf berekend als een globale optimale referentie door de kromming van het pad te minimaliseren binnen de rijbaangrenzen.
Observatieverrijking: De MCRL wordt omgezet in een binaire bezettingsgrid binnen het lokale coördinatenstelsel van het voertuig. Deze "expert prior" wordt toegevoegd aan de observatieruimte van de agent, waardoor het zoekgebied voor het beleid (policy) wordt ingeperkt.
Reward Shaping: Er wordt een hybride beloningsfunctie ontworpen die de agent belooont voor het volgen van de MCRL (positie, snelheid en richting), wat de convergentie versnelt.

2. Dynamische Beperkingen (Dynamics Constraints)

Om veiligheidsrisico's te minimaliseren tijdens het leren, worden expliciete stabiliteitsbeperkingen opgelegd gebaseerd op voertuigdynamica.

Veiligheidsomhulsel: Een veiligheidsomhulsel wordt gedefinieerd in het fasevlak van glijhoek (sideslip angle, $\beta$ ) en draaisnelheid (yaw rate, $\omega$ ).
Control Barrier Functions (CBF): Deze beperkingen worden geformaliseerd als differentieerbare constraints ( $h(x)$ ) met behulp van CBF's.
Lagrange-multiplicatoren: De constraints worden geïntegreerd in de optimalisatie-Doelstelling via Lagrange-relaxatie. Twee aanleerbare multiplicatoren regelen dynamisch de strengheid van de straffen voor het schenden van de stabiliteitsgrenzen, waardoor de agent kan exploreren binnen een fysiek haalbaar, veilig gebied.

3. Curriculum Learning Strategie

Om een balans te vinden tussen stabiliteit in de vroege fase en maximale prestaties in de latere fase, wordt een twee-fasen curriculum gebruikt:

Fase 1 (Trajectgeleiding): De agent leert om stabiel te rijden op de referentiesnelheid van de MCRL. Dit bouwt een solide basis van rijvaardigheden op.
Fase 2 (Hoge Snelheid Exploratie): De snelheidsbeperkingen van de MCRL worden verwijderd en de agent wordt gestimuleerd om de maximale fysieke limieten van het voertuig te verkennen. Dit stelt de agent in staat om prestaties te behalen die beter zijn dan die van de expert-gebaseerde MCRL.

Belangrijkste Bijdragen

Geleid RL-framework: Een nieuwe state-representatie en reward-shaping mechanisme dat globale trajectpriors (MCRL) gebruikt om de exploratie in hoge-dimensionale ruimtes te sturen en het "sparse reward"-probleem op te lossen.
Dynamiek-gestuurde regularisatie: Een methode om expliciete stabiliteitsbeperkingen (glijhoek en draaisnelheid) op te leggen via CBF's en Lagrange-multiplicatoren, wat zorgt voor veilig leren zonder de exploratie volledig te blokkeren.
Progressieve Curriculum Learning: Een strategie die de overgang van expert-geleide navolging naar autonome exploratie van fysieke limieten faciliteert, wat leidt tot snellere convergentie en superieure prestaties.

Resultaten

De methode werd getest in een hoogwaardige simulatieomgeving op het Tempelhof Airport Street Circuit (Berlijn), een circuit dat bekend staat om zijn krappe en bochtige karakter. De resultaten werden vergeleken met PPO, DDPG en een bestaande traject-geleide methode (TAL).

Prestatieverbetering: TraD-RL behaalde een ronde tijd van 58,83 seconden en een gemiddelde snelheid van 39,79 m/s. Dit is een significante verbetering ten opzichte van de basismethoden (bijvoorbeeld 30,5% sneller dan DDPG en 4% sneller dan TAL).
Veiligheid en Stabiliteit: Hoewel de agent op de limiet rijdt, blijft het voertuig binnen de veilige dynamische grenzen. Het aantal overtredingen van de glijhoek ( $\beta$ -unsafe) en draaisnelheid ( $\omega$ -unsafe) is aanzienlijk lager dan bij methoden zonder expliciete constraints.
Ablatie-onderzoek:
- Zonder trajectgeleiding (w/o TG) viel de agent terug op een te conservatief gedrag (lage snelheid) om veilig te blijven.
- Zonder dynamische constraints (w/o DC) bereikte de agent hoge snelheden, maar met een groot risico op instabiliteit en onbeheersbare slip (spin-outs).
- De combinatie van beide modules bleek essentieel voor het bereiken van zowel snelheid als stabiliteit.

Betekenis

Dit artikel demonstreert dat het integreren van expertkennis (via trajectgeleiding) en fysische beperkingen (via CBF's) cruciaal is voor het succes van Reinforcement Learning in veiligheidskritieke, hoog-dynamische toepassingen zoals autonoom racen.

De studie toont aan dat het mogelijk is om een agent te trainen die niet alleen sneller is dan menselijke experts of traditionele methoden, maar dit ook doet met een synergetische optimalisatie van prestatie en veiligheid. De methode biedt een robuust raamwerk dat de "trial-and-error" risico's van RL beperkt, waardoor het een veelbelovende richting is voor de ontwikkeling van betrouwbare autonome raceauto's en veiligheidskritieke besturingssystemen in het algemeen.