Accelerating Residual Reinforcement Learning with Uncertainty Estimation

Each language version is independently generated for its own context, not a direct translation.

De Kern: Een Slimme Bijrijder voor Robots

Stel je voor dat je een robotarm hebt die al een tijdje geoefend heeft om taken uit te voeren, zoals een blikje oppakken of een schroef vastdraaien. Deze robot heeft een "basis-patroon" (een algoritme) dat al redelijk goed werkt, maar niet perfect. Soms maakt hij fouten, vooral in nieuwe situaties.

Het probleem is: als je de robot volledig opnieuw wilt leren, kost dat enorm veel tijd en energie (en in de echte wereld kan dat gevaarlijk zijn). Als je hem alleen een klein beetje aanpast, werkt hij misschien nog steeds niet goed genoeg.

De auteurs van dit papier hebben een slimme oplossing bedacht: Residual Reinforcement Learning.

1. De Basis: De "Oude Meester" en de "Nieuwe Leraar"

In plaats van de hele robot opnieuw te leren, houden ze de "Oude Meester" (de basis-robot) aan. Ze voegen er een "Nieuwe Leraar" (een klein extra algoritme) aan toe.

De Oude Meester doet wat hij altijd doet.
De Nieuwe Leraar kijkt toe en zegt alleen: "Hé, wacht even, je gaat iets te hard, of je mist een beetje naar links. Maak een kleine correctie."

De robot voert dan de actie van de Oude Meester uit, plus de kleine correctie van de Nieuwe Leraar. Dit is veel sneller en efficiënter dan alles opnieuw leren.

2. Het Probleem: De Nieuwe Leraar is te ongeduldig

In eerdere versies van deze methode was de Nieuwe Leraar een beetje een "overijverige student". Hij probeerde overal en altijd te corrigeren, zelfs als de Oude Meester het al perfect deed.

Vergelijking: Stel je voor dat je autorijdt en je vriend (de Nieuwe Leraar) schreeuwt constant: "Stuur links! Stuur rechts! Rem!" Zelfs als jij perfect rijdt. Dat maakt het rijden chaotisch en leert je niets. De robot probeerde dus overal te leren, wat veel tijd kostte.

3. De Oplossing 1: De "Zekerheids-meter"

De auteurs hebben een slimme truc bedacht: ze geven de Nieuwe Leraar een Zekerheids-meter voor de Oude Meester.

Als de Oude Meester zeker is van zijn actie (bijvoorbeeld: "Ik weet zeker dat dit de juiste weg is"), dan zegt de Nieuwe Leraar: "Oké, ik houd mijn mond en laat je doen."
Als de Oude Meester onzeker is (bijvoorbeeld: "Ik weet niet zeker of dit blikje vastzit"), dan zegt de Nieuwe Leraar: "Oké, nu is het mijn beurt! Ik ga helpen en proberen iets anders."

De analogie: Het is alsof je een ervaren gids hebt die een wandeling maakt. Als hij zeker weet waar hij heen moet, loopt hij gewoon door. Maar als hij aarzelt bij een kruispunt, komt jouw vriend (de Nieuwe Leraar) met een kaart en zegt: "Ik denk dat we hier moeten afslaan." Hierdoor leer je alleen op de plekken waar het nodig is, wat veel sneller gaat.

4. De Oplossing 2: De "Gokker" vs. De "Strategist"

Een ander probleem was dat sommige robots niet altijd precies hetzelfde doen, zelfs als ze in dezelfde situatie zitten. Ze zijn een beetje "willekeurig" (stochastisch).

Het oude probleem: De Nieuwe Leraar wist niet precies wat de Oude Meester had gedaan, omdat die soms een beetje "gokte". De Nieuwe Leraar probeerde dan een correctie te bedenken zonder de volledige context, wat als proberen een raadsel op te lossen zonder alle stukjes van de puzzel.
De nieuwe oplossing: De auteurs hebben de robot een nieuw brein gegeven (een "asymmetrisch actor-critic" systeem).
- De Strategist (Critic) ziet alles: wat de Oude Meester deed én wat de Nieuwe Leraar deed. Hij kan dus zeggen: "Die combinatie werkte goed."
- De Uitvoerder (Actor) doet alleen de kleine correcties.

De analogie: Stel je voor dat je een team bent met een chef-kok (Oude Meester) en een sous-chef (Nieuwe Leraar).

Vroeger keek de sous-chef alleen naar wat hij zelf deed en probeerde hij te raden wat de chef deed.
Nu kijkt de "Smaakproever" (de Strategist) naar het hele gerecht (wat de chef deed + wat de sous-chef toevoegde) om te zeggen of het lekker is. De sous-chef leert dan welk ingrediënt hij moet toevoegen, wetende wat de chef al heeft gedaan.

Wat is het resultaat?

De robot leert veel sneller en maakt minder fouten.

In de simulatie: De robot werd getest op taken zoals het tillen van blokken en het koken in een virtuele keuken. Hij deed het veel beter dan andere methodes.
In de echte wereld: Het allerbelangrijkste: ze hebben de robot die in de computer had geleerd, direct op een echte robot in het lab gezet. Zonder extra oefening in de echte wereld ("zero-shot") werkte het perfect! De robot kon een blikje oppakken en in een bak leggen, precies zoals hij in de computer had geleerd.

Samenvatting in één zin:

De auteurs hebben een slimme manier bedacht om robots sneller te leren door ze alleen te laten corrigeren op momenten dat ze twijfelen, en door ze te laten kijken naar het volledige plaatje van wat er gebeurt, waardoor ze zelfs in de echte wereld direct goed kunnen werken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Residual Reinforcement Learning (Residual RL) is een populaire methode om vooraf getrainde beleidsstrategieën (base policies) te verbeteren door een lichtgewicht "residumodel" te leren dat corrigerende acties toevoegt. Hoewel dit efficiënter is dan het volledig finetunen van het basisbeleid, kampen bestaande methoden met twee belangrijke beperkingen:

Ongedwongen exploratie: Bestaande algoritmen verkennen vaak de hele state-space uniform, wat leidt tot inefficiëntie, vooral bij schrale beloningen (sparse rewards).
Aannames over determinisme: De meeste huidige Residual RL-methoden gaan uit van deterministische basisbeleidsstrategieën. Ze kunnen echter niet goed omgaan met moderne, stochastische (probabilistische) basisbeleidsstrategieën, zoals die gebaseerd zijn op Gaussian Mixture Models (GMM) of Diffusion-modellen. Bij stochastische beleidsstrategieën kan dezelfde toestand leiden tot verschillende acties, waardoor het voor het residumodel moeilijk is om een juiste correctie te leren als het de specifieke basisactie niet kent.

Methodologie

De auteurs stellen twee kernverbeteringen voor om deze beperkingen op te lossen en Residual RL robuuster en sample-efficiënter te maken:

1. Onzekerheidsgestuurde Exploratie (Uncertainty-Aware Exploration)

In plaats van uniform te verkennen, gebruiken de auteurs schattingen van de onzekerheid van het basisbeleid om de exploratie te sturen.

Principe: Als het basisbeleid zeker is over zijn actie in een bepaalde staat, wordt alleen het basisbeleid gebruikt. Het residumodel leert alleen correcties wanneer het basisbeleid onzeker is.
Implementatie: Er worden twee onzekerheidsmetrieken getest:
- Distance-to-data: De afstand van de huidige staat tot de trainingsdata-distributie.
- Ensemble variance: De variantie in voorspellingen tussen een ensemble van basisbeleidsstrategieën.
Dynamische drempel: Een onzekerheidsdrempel ( $\tau$ ) wordt exponentieel verlaagd tijdens het leerproces. Zolang de onzekerheid boven deze drempel ligt, wordt een residu-actie ( $a_r$ ) toegevoegd aan de basisactie ( $a_b$ ). Zodra de onzekerheid onder de drempel zakt, wordt alleen de basisactie gebruikt. Uiteindelijk zakt de drempel naar 0, waardoor het residumodel de volledige controle overneemt.

2. Asymmetrische Actor-Critic voor Stochastische Beleidsstrategieën

De auteurs passen de off-policy Residual RL-algoritmen aan om stochastische basisbeleidsstrategieën te ondersteunen.

Het probleem: Traditionele methoden leren een Q-functie alleen voor het residu ( $Q(s, a_r)$ ), wat impliceert dat de basisactie uit de staat $s$ kan worden afgeleid. Dit werkt niet bij stochastische beleidsstrategieën.
De oplossing: Ze introduceren een asymmetrische actor-critic architectuur:
- De Critic leert de Q-functie voor de gecombineerde actie ( $a_c = a_b + a_r$ ) die daadwerkelijk in de omgeving wordt uitgevoerd. De critic ontvangt zowel de basisactie als de residu-actie als input.
- De Actor leert alleen het residu ( $a_r$ ).
Voordeel: Dit zorgt ervoor dat de Q-functie beschikt over alle informatie over de stochastische basisactie, terwijl de actor zich blijft focussen op het leren van de correctie. De methode is invariant voor de verdeling tussen basis- en residu-actie.

Belangrijkste Bijdragen

Nieuw algoritme: Een Residual RL-algoritme dat onzekerheidsschattingen gebruikt om exploratie te beperken tot gebieden waar het basisbeleid niet zeker is, wat de sample-efficiëntie aanzienlijk verbetert.
Aanpassing voor stochastische beleidsstrategieën: Een modificatie van off-policy RL (gebaseerd op Soft Actor-Critic) die werkt met stochastische basisbeleidsstrategieën door de critic te laten leren op de gecombineerde actie.
Uitgebreide validatie: Experimenten uitgevoerd op robotmanipulatietaakken in Robosuite en D4RL (Franka Kitchen) met zowel GMM- als Diffusion-based basisbeleidsstrategieën.
Sim-to-Real transfer: Succesvolle implementatie op een echte robot (Franka Emika) zonder domain randomization, wat de robuustheid van de geleerde beleidsstrategieën aantoont.

Resultaten

De methode werd geëvalueerd tegen state-of-the-art baselines, waaronder:

Finetuning-methoden (bijv. DPPO voor Diffusion policies).
Demo-verrijkte RL-methoden (bijv. IBRL).
Andere Residual RL-methoden (bijv. Policy Decorator).

Kernbevindingen:

Superieure prestaties: De voorgestelde methode presteert significant beter dan alle baselines op de meeste taken (Lift, Can, Square, Franka Kitchen), vooral bij stochastische basisbeleidsstrategieën.
Sample-efficiëntie: Door gefocuste exploratie convergeert de methode sneller dan methoden met uniforme exploratie.
Ablatiestudies:
- Het gebruik van de gecombineerde actie voor de critic is essentieel voor stochastische beleidsstrategieën; het gebruik van alleen residu-acties leidt tot falen.
- Exponentiële afname van de onzekerheidsdrempel werkt het beste.
- De keuze van de onzekerheidsmetriek (distance-to-data vs. ensemble variance) hangt af van de kwaliteit van de trainingsdata (bijv. ensemble variance werkt beter bij datasets met willekeurige trajecten).
Real-world succes: De in simulatie getrainde beleidsstrategieën konden direct (zero-shot) worden toegepast op een echte robot voor de "Can" taak, waarbij ze de oorspronkelijke prestaties behielden en robuuster waren dan puur imitatie-geleerde beleidsstrategieën.

Betekenis en Impact

Dit werk is significant omdat het Residual RL toepasbaar maakt voor de nieuwste generatie stochastische imitatie-leringsmodellen (zoals Diffusion policies), die vaak superieur zijn maar moeilijk te finetunen zijn. Door exploratie te sturen via onzekerheid en de critic aan te passen voor stochastische contexten, biedt de methode een efficiëntere en robuustere manier om robotbeleid te verbeteren. Dit opent de deur voor het gebruik van grote foundation-modellen in de robotica, waarbij kleine, doelgerichte correcties kunnen worden aangebracht zonder de hele basis te herschrijven. De succesvolle sim-to-real transfer bevestigt de praktische bruikbaarheid voor echte robottoepassingen.