A Review of Reward Functions for Reinforcement Learning in the context of Autonomous Driving

Each language version is independently generated for its own context, not a direct translation.

De Zelfrijdende Auto als een Leerling-Chef: Een Gids voor Beloningen

Stel je voor dat een zelfrijdende auto niet als een robot wordt gebouwd, maar als een leerling-chef in een drukke keuken. Om deze chef goed te leren koken (rijden), hebben we een meesterkok nodig die elke actie beoordeelt. Die meesterkok is in de wereld van kunstmatige intelligentie het beloningssysteem (reward function).

Als de chef een gerecht perfect maakt, krijgt hij een sterretje (een positieve beloning). Als hij de pan verbrandt, krijgt hij een duw in zijn rug (een negatieve straf). Het probleem? Zelfrijden is geen simpele taak. Het is alsof de chef tegelijkertijd moet proberen:

Niet te verbranden (Veiligheid).
Snel te koken (Vooruitgang).
Zachtjes te roeren zodat de gasten niet misselijk worden (Comfort).
De regels van de keuken te volgen (Verkeersregels).

Dit paper van IEEE kijkt naar hoe we deze "meesterkok" tot nu toe hebben ontworpen en waar het misgaat.

1. De Vier Hoofdzaken (De Categorieën)

De auteurs hebben alle bestaande beloningssystemen onderzocht en ze in vier bakken verdeeld:

Veiligheid (Niet verbranden):
- Hoe het nu gaat: Veel systemen zijn als een strenge leraar die alleen straft als er daadwerkelijk een ongeluk gebeurt (een botsing).
- Het probleem: Dit is te laat! Als de auto net voor een ander voertuig remt, krijgt hij geen straf, terwijl hij net op het randje van gevaar zat. Het is alsof je een kind alleen straft als het van de trap valt, maar niet als het net boven de rand staat.
- De oplossing: We moeten straffen voor risicovol gedrag (bijvoorbeeld: te dichtbij rijden), niet alleen voor ongelukken.
Vooruitgang (Snel koken):
- Hoe het nu gaat: De auto krijgt een beloning als hij snel rijdt of snel bij zijn bestemming is.
- Het probleem: Soms leidt dit tot gekke keuzes. Als de auto te hard wordt gestraft voor stilstand, kan hij besluiten om tegen een stilstaand obstakel aan te rijden in plaats van te wachten, omdat "rijden" meer punten oplevert dan "wachten".
- De oplossing: We moeten slimmer omgaan met snelheid, rekening houdend met de situatie (bijv. file of regen).
Comfort (Zachtjes roeren):
- Hoe het nu gaat: Vaak wordt dit vergeten! De auto rijdt soms als een stoomwals: hard remmen en scherp sturen.
- Het probleem: Passagiers worden misselijk. Het is alsof de chef het eten wel op tijd klaar heeft, maar het is zo ruw dat niemand het wil eten.
- De oplossing: We moeten straffen voor schokkerig rijden (te veel versnelling of sturen).
Verkeersregels (De keukenregels):
- Hoe het nu gaat: De auto leert om in de juiste rijbaan te blijven en niet te hard te rijden.
- Het probleem: Soms zijn regels flexibel. In een noodsituatie mag je misschien even de lijn over. Nu zijn de regels vaak te star of te vaag.

2. De Grote Problemen (Waarom het nu nog niet perfect is)

A. De "Wiskundige Soep" (Aggregatie)
Nu worden alle punten simpelweg bij elkaar opgeteld.

De analogie: Stel je voor dat de chef 10 punten krijgt voor snelheid en -10 punten voor een ongeluk. Als hij een ongeluk veroorzaakt maar wel supersnel was, is de som misschien 0. De chef denkt dan: "Oke, ik heb niets verloren!"
Het risico: Veiligheid zou altijd de hoogste prioriteit moeten hebben, maar door simpel optellen, kan veiligheid "opgeofferd" worden voor snelheid.

B. De "Eén-Size-Fits-All" Moeilijkheid (Context)
De beloningssystemen zijn vaak gemaakt voor één specifieke situatie (bijv. alleen op de snelweg).

De analogie: Het is alsof je een chef alleen hebt getraind om soep te maken. Zodra je hem vraagt om een salade te maken (een andere situatie), raakt hij in paniek omdat hij niet weet hoe hij moet schakelen.
Het probleem: Een auto in de stad rijdt anders dan op een racebaan. Nu weten de auto's niet hoe ze hun "beloningssysteem" moeten aanpassen aan de situatie.

C. Geld en Milieu (Economie)
De meeste systemen kijken niet naar brandstofverbruik of kosten.

De analogie: De chef maakt een heerlijk gerecht, maar hij gebruikt de duurste ingrediënten en laat het gas de hele dag aan staan. Dat is niet duurzaam.

3. De Toekomst: Hoe maken we het beter?

De auteurs komen met drie creatieve ideeën om dit op te lossen:

Het "Regelboek" (Rulebooks):
In plaats van punten optellen, maken we een hiërarchie van regels.
- De analogie: Denk aan een militaire rangorde. Regel 1: "Niet doden." Regel 2: "Niet botten." Regel 3: "Snel zijn." Als er een conflict is, wint Regel 1 altijd. Je hoeft geen moeilijke wiskunde te doen om te bepalen hoeveel punten veiligheid waard is; het is simpelweg belangrijker dan snelheid.
De "Context-Machine" (Reward Machines):
Dit is een slimme schakelaar die de auto vertelt in welke modus hij zit.
- De analogie: Het is als een game-console. Als je op de knop "Stad" drukt, verandert het spel in een drukke stad met veel voetgangers. Druk je op "Snelweg", dan is het een race. De auto schakelt automatisch tussen deze "modi" en past zijn beloningssysteem daarop aan.
Een "Keuringsdienst" (Validatie Framework):
Nu testen we auto's pas als ze al bijna klaar zijn.
- De analogie: We moeten een automatische testkamer hebben die voordat de auto de weg op gaat, duizenden rare en gevaarlijke situaties bedenkt om te kijken of het beloningssysteem wel logisch is. "Zou deze auto nu inderdaad tegen een boom rijden om een punt te scoren?" Als het antwoord ja is, is het systeem kapot en moet het opnieuw.

Conclusie

Kortom: Zelfrijdende auto's leren momenteel nog te veel op basis van simpele "punten en straffen". Dit werkt soms goed, maar leidt soms tot gevaarlijke of oncomfortabele rijstijlen. De toekomst ligt in slimmere regels (waar veiligheid altijd wint), flexibele schakelaars (voor verschillende situaties) en strengere tests voordat de auto de weg op gaat.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "A Review of Reward Functions for Reinforcement Learning in the Context of Autonomous Driving" in het Nederlands.

Titel: A Review of Reward Functions for Reinforcement Learning in the Context of Autonomous Driving

Auteurs: Ahmed Abouelazm, Jonas Michel, en J. Marius Zöllner
Publicatie: IEEE 35th Intelligent Vehicles Symposium (IV 2025)

1. Het Probleem

Autonome rijden is een complex meerdoel-probleem waarbij verschillende, soms tegenstrijdige, doelen moeten worden gebalanceerd (bijv. veiligheid versus doorstroming). Reinforcement Learning (RL) is een veelbelovende aanpak voor End-to-End (E2E) autonome rijstelsels, waarbij de agent leert door interactie met de omgeving om de cumulatieve beloning te maximaliseren.

De kernuitdaging ligt in het ontwerpen van een beloningsfunctie (reward function). Deze functie moet de complexe doelen van het rijden vertalen naar een enkel numeriek signaal. Het paper identificeert de volgende kritieke problemen in de huidige staat van de techniek:

Gebrek aan standaardisatie: Er zijn geen industriestandaarden voor het definiëren van beloningscomponenten.
Slechte formulering: Beloningsfuncties zijn vaak onvolledig, niet contextbewust en leiden tot suboptimale of onveilig gedrag.
Conflicterende doelen: Het samenvoegen van doelen (zoals veiligheid en snelheid) gebeurt vaak op een simpele manier die conflicten niet effectief oplost.
Gebrek aan validatie: Er ontbreekt een gestructureerd kader om te valideren of een beloningsfunctie veilig en betrouwbaar is.

2. Methodologie

De auteurs voeren een uitgebreide literatuurstudie uit van state-of-the-art RL-aanpakken voor autonoom rijden. De methodologie omvat:

Categorisatie: Het ontleden van bestaande beloningsfuncties in individuele componenten en het toewijzen hiervan aan vier hoofdcategorieën:
- Veiligheid (Safety)
- Vooruitgang/Efficiëntie (Progress)
- Comfort
- Naleving verkeersregels (Traffic Rules)
Analyse van formuleringen: Het beoordelen van de wiskundige formuleringen binnen elke categorie, inclusief hun sterktes en zwaktes.
Identificatie van algemene beperkingen: Het analyseren van hoe deze componenten worden samengevoegd (aggregatie) en hoe ze omgaan met de rijcontext.
Voorgestelde oplossingen: Het ontwikkelen van een roadmap voor toekomstig onderzoek gebaseerd op de geïdentificeerde lacunes.

3. Belangrijkste Bijdragen en Resultaten

A. Gedetailleerde Analyse van Beloningscategorieën

Veiligheid (Safety):
- Huidige aanpakken gebruiken vaak conditionele straffen voor botsingen (sparsere beloning) of continue risico-metingen zoals Time-to-Collision (TTC).
- Kritiek: Simpele botsingsstraffen onderscheiden niet tussen ernst van de botsing (bijv. lichte aanrijding vs. voetganger). Er ontbreekt een continue beloning voor veilig rijden (bijv. het handhaven van een veilige afstand) naast de straffen voor onveilig gedrag.
Vooruitgang (Progress):
- Doel is efficiëntie (snelheid, tijd tot doel).
- Kritiek: Dichte beloningen op afstand of snelheid kunnen leiden tot irrationeel gedrag. Een agent kan kiezen om tegen een obstakel aan te rijden in plaats van te wachten, omdat de cumulatieve straf voor wachten groter is dan de botsingsstraf. Er is een conflict met veiligheid.
Comfort:
- Gerelateerd aan passagierscomfort (versnelling, jerk, stuurhoek).
- Kritiek: Veel studies negeren comfort volledig. Bestaande formules zijn vaak onvolledig (bijv. negeren van stuurgladheid) en er is geen standaard die rekening houdt met veranderende passagiers of scenario's zonder passagiers.
Naleving Verkeersregels:
- Straffen voor snelheidsovertredingen of het verlaten van de rijbaan.
- Kritiek: Regelgeving wordt vaak star toegepast zonder nuance voor context (bijv. een noodmanoeuvre waarbij regels tijdelijk worden genegeerd).

B. Algemene Beperkingen in Actuele Ontwerpen

Aggregatie van Doelen:
- De meeste studies gebruiken sommatie of gewogen sommatie ( $r = \sum w_i r_i$ ).
- Probleem: Dit vereist handmatige tuning van gewichten, wat intuïtief moeilijk is en niet schaalbaar. Het lost conflicten niet op (bijv. veiligheid vs. snelheid).
- Alternatieven: Lexicografische ordening (strakke prioriteit) wordt genoemd, maar vereist drempelwaarden en kan niet omgaan met gelijkwaardige doelen.
Gebrek aan Contextbewustzijn:
- Beloningsfuncties zijn vaak specifiek voor één gebruiksscenario (bijv. alleen stadsrijden of alleen snelweg). Ze generaliseren slecht naar onverwachte situaties of overgangen tussen scenario's.
Economische Aspecten:
- Factoren zoals brandstofefficiëntie en kosten worden bijna volledig genegeerd in de huidige literatuur.

C. Voorgestelde Oplossingen voor Toekomstig Onderzoek

De auteurs stellen drie belangrijke richtingen voor:

Rulebooks:
- In plaats van gewogen sommatie, wordt voorgesteld om een "Rulebook" te gebruiken: een verzameling regels met een vooraf gedefinieerde hiërarchie ( $\leq$ ).
- Dit elimineert de noodzaak voor handmatige gewichten en maakt het mogelijk om conflicten op te lossen door prioriteit te geven aan regels (bijv. veiligheid > comfort).
Contextbewuste Beloning via Reward Machines:
- Om contextbewustzijn te introduceren, worden Reward Machines voorgesteld. Dit zijn eindige toestandenmachines die complexe taken kunnen decomponeren in sub-taken (contexten) met specifieke beloningen en transitiemechanismen.
- Dit maakt de beloningsfunctie adaptief aan veranderende omstandigheden (bijv. van snelweg naar stad).
Validatie Framework:
- Er is een dringende behoefte aan een automatisch kader voor het valideren van beloningsfuncties.
- Huidige manuele checks zijn ontoereikend. Het paper suggereert het gebruik van generatie van kritieke scenario's (adversarial examples) om te testen of een beloningsfunctie onbedoeld gedrag stimuleert.

4. Significantie en Conclusie

Dit paper biedt een cruciale kritische analyse van de fundamentele uitdagingen in het ontwerpen van RL-beloningsfuncties voor autonoom rijden. De belangrijkste bijdrage is het inzicht dat de huidige "trial-and-error" benadering van het afstemmen van gewichten en het ontbreken van contextbewustzijn leiden tot onbetrouwbare systemen.

De conclusie is dat de toekomst van veilig en efficiënt RL-gebaseerd autonoom rijden ligt in:

Het overstappen van gewogen sommatie naar gestructureerde prioritering (Rulebooks).
Het integreren van contextbewustzijn via geavanceerde architecturen zoals Reward Machines.
Het ontwikkelen van standaardisatie en validatiekaders om de veiligheid van deze systemen te garanderen voordat ze in de praktijk worden ingezet.

De auteurs benadrukken dat zonder deze verbeteringen in de beloningsfunctie-ontwerp, de veiligheid en de maatschappelijke acceptatie van autonome voertuigen in gevaar komen.