ProgAgent:A Continual RL Agent with Progress-Aware Rewards

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren die niet alleen één taak kan doen, maar die gedurende zijn hele leven nieuwe vaardigheden kan leren, zonder de oude te vergeten. Dat is de droom van de robotica. Maar tot nu toe was dit als het leren van een nieuwe taal: zodra je Spaans leert, begin je je te herinneren hoe je Nederlands sprak, en vice versa. Dit fenomeen heet "catastrophical forgetting" (catastrofaal vergeten).

Daarnaast is het heel moeilijk om een robot precies te vertellen waarom iets goed is. Mensen moeten vaak eindeloos handmatig regels schrijven (beloningen) voor elke kleine beweging.

ProgAgent is een nieuwe, slimme robot-geest die dit probleem oplost. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Vooruitgangs-Compaan" (Progress-Aware Rewards)

Stel je voor dat je een kind leert fietsen. In plaats van elke keer te zeggen "buig je knie 5 graden naar links", geef je een beloning als het kind dichter bij het doel komt.

Het probleem: Robots hebben vaak geen instructieboekje. Ze krijgen alleen video's van experts (bijvoorbeeld een mens die een deur opent).
De oplossing van ProgAgent: Het systeem kijkt naar deze video's en leert een "gevoel" voor vooruitgang. Het vraagt zich niet af hoe de hand beweegt, maar hoe ver het doel al is bereikt.
De analogie: Het is alsof de robot een GPS heeft die niet zegt "draai links", maar continu zegt: "Je bent nu 10% dichter bij je doel dan een seconde geleden." Dit geeft de robot duizenden kleine beloningen in plaats van één grote aan het einde, waardoor het veel sneller leert.

2. De "Stress-Test" (Adversarial Push-Back)

Er is een groot gevaar: als de robot iets nieuws probeert (bijvoorbeeld een deur openen die hij nog nooit heeft gezien), kan hij in de war raken. Zonder controle zou hij denken: "Oh, ik sta nu heel ver weg, maar ik heb een rare beweging gemaakt, misschien is dat wel goed!" en hij zou zichzelf bedriegen.

De oplossing: ProgAgent heeft een strenge leraar in zijn hoofd. Als de robot iets doet dat totaal niet lijkt op wat de experts deden (een "vreemde" beweging), zegt deze leraar: "Wacht even, ik heb geen idee wat je doet, dus geef ik je een lage score."
De analogie: Het is als een veiligheidsnet. Als de robot probeert te vliegen door een muur, trekt het net hem terug en zegt: "Dit is geen goede weg." Dit voorkomt dat de robot dwaalt in een wereld van valse beloningen.

3. De "Super-Snelheidsmotor" (JAX-Native Architecture)

Oude robots leerden traag, alsof ze met de hand een schip moesten varen. Ze moesten eerst een stap zetten, wachten op de computer, dan de volgende stap.

De oplossing: ProgAgent is gebouwd op een nieuwe technologie (JAX) die alles tegelijk doet.
De analogie: Stel je voor dat je niet één robot hebt die oefent, maar duizenden robots die tegelijkertijd in een virtuele wereld oefenen. Ze delen hun ervaringen in een fractie van een seconde. Het is alsof je van een fietsje overstapt op een Formule 1-auto die tegelijkertijd duizend andere races rijdt om de beste route te vinden. Dit maakt het mogelijk om complexe taken te leren die voor andere robots te zwaar zijn.

4. De "Tijdmachine" (Continual Learning)

Hoe voorkom je dat de robot de oude vaardigheden vergeet als hij nieuwe leert?

De oplossing: ProgAgent gebruikt twee slimme trucs:
1. De "Herinnerings-Buffer": Het houdt een klein, slimme selectie van oude oefeningen vast (alsof je een dagboekje bijhoudt met de belangrijkste momenten) en oefent daar af en toe mee.
2. De "Synaptische Veiligheid": Het weet welke hersencellen (parameters) belangrijk zijn voor oude taken en beschermt die tegen verandering, terwijl het andere delen vrij laat om nieuwe dingen te leren.
De analogie: Het is als een veiligheidskluis voor je kennis. Als je een nieuwe taal leert, worden je oude woorden niet gewist; ze worden gewoon in een aparte, beveiligde kast gezet die je kunt openen als je ze nodig hebt.

Wat betekent dit voor de toekomst?

In tests heeft ProgAgent laten zien dat het niet alleen sneller leert dan andere systemen, maar dat het zelfs beter presteert dan een systeem dat "perfect" alle oude data zou kunnen onthouden (wat in de echte wereld onmogelijk is).

Kortom: ProgAgent is een robot die leert door te kijken naar voorbeelden, die zichzelf corrigeert als hij de weg kwijtraakt, en dat allemaal doet met de snelheid van een supercomputer. Het is een grote stap naar robots die echt kunnen meegroeien met de wereld, net als wij mensen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De paper adresseert twee fundamentele uitdagingen in het gebied van robotica en continu versterkend leren (Continual Reinforcement Learning - CRL):

Catastrofaal Vergeten (Catastrophic Forgetting): Robotagenten die nieuwe taken leren, hebben de neiging om eerder verworven kennis te overschrijven. Dit ondermijnt de autonomie op lange termijn.
Het Beloningspecificatieprobleem: Het handmatig ontwerpen van dichte, goed gevormde beloningsfuncties voor diverse manipulatie-taken is arbeidsintensief en vaak onpraktisch. Bestaande methoden voor visuele beloningsleer (uit ongelabelde video's) zijn vaak kwetsbaar voor verdelingsverschuivingen (distribution shifts) wanneer de agent nieuwe, niet-expert toestanden verkent.

Daarnaast bestaat er een kloof tussen algoritmen voor continu leren en systemen voor schaalbaar trainen; geavanceerde algoritmen zijn vaak te rekenintensief om efficiënt op grote schaal te implementeren.

Methodologie: ProgAgent

ProgAgent is een unificerend framework dat voortgangsbewust beloningsleren (progress-aware reward learning) combineert met een native JAX-architectuur voor hoge doorvoer. De methode bestaat uit drie hoofdpilaren:

1. Voortgangsgeoriënteerde Beloningsfunctie als Potentiaal

In plaats van handmatige beloningen of gedetailleerde actie-labels, leert ProgAgent een perceptueel model ( $E_\phi$ ) dat taakvoortgang schat op basis van ongelabelde expertvideo's.

Input: Een triplet van observaties: start ( $o_i$ ), heden ( $o_j$ ) en doel ( $o_g$ ).
Output: Het model voorspelt een Gaussische verdeling over de voortgangsverhouding $\delta = |j-i|/|g-i|$ .
Theoretische Basis: De voorspelling wordt geïnterpreteerd als een geleerde potentiaalfunctie $\Phi_\phi$ . De beloning wordt afgeleid via potentiaalshaping: $r_t = \gamma\Phi_\phi(o_t) - \Phi_\phi(o_{t-1})$ . Dit garandeert dat de optimale beleidsfunctie onveranderd blijft (volgens het shaping-theorema van Ng et al.) terwijl het agenten dichte, gestructureerde signalen geeft die de exploratie richten naar expert-gedrag.

2. Adversariale Verfijning (Adversarial Push-Back)

Om het probleem van overconfidentie op niet-expert toestanden (out-of-distribution states) tijdens online exploratie op te lossen, introduceert de auteurs een regularisatieterm.

Het model wordt gestraft als het hoge zekerheid (lage variantie) voorspelt voor toestanden die afwijken van experttrajecten.
Een "push-back" loss duwt de voorspellingen voor deze nieuwe toestanden richting een prior met lage zekerheid (nul-middelpunt, hoge variantie).
Dit voorkomt dat de agent "reward hacking" pleegt door vals positieve beloningen te ontvangen voor willekeurige of mislukte acties.

3. Native JAX-Architectuur voor Hoge Doorvoer

Om de rekenkosten van de complexe CRL-objectieven te beheersen, is het hele trainingsproces (datacollectie, beloningsupdates, beleidsoptimalisatie) geïmplementeerd in JAX.

JIT-Compilatie: De volledige trainingslus wordt gecompileerd tot efficiënte kernels, wat host-device communicatieoverhead elimineert.
Massively Parallel Rollouts: Via jax.vmap worden duizenden omgevingen parallel gesimuleerd, wat snelle datageneratie en stabiele gradienten mogelijk maakt.
Unificatie: Dit systeem maakt het haalbaar om PPO te combineren met geavanceerde continu-leertechnieken zoals Coreset Replay (herhaling van een compacte selectie van oude data) en Synaptic Intelligence (SI) (regularisatie van belangrijke parameters) in één doelwit.

Belangrijkste Bijdragen

Voortgangsgeoriënteerd Beloningsmodel: Een model dat dichte beloningen extrahert uit ongelabelde video's, theoretisch onderbouwd als een potentiaalfunctie die exploratie richt zonder de optimaliteit te beïnvloeden.
Adversariale Stabilisatie: Een mechanisme dat de robuustheid van het beloningsmodel verhoogt door overconfidente voorspellingen op niet-expert data te onderdrukken, essentieel voor online leren.
Gecombineerde JAX-Native Architectuur: Een systeem dat de kloof tussen algoritme en implementatie overbrugt, waardoor schaalbaar, reproduceerbaar en efficiënt continu leren mogelijk wordt.

Resultaten

De evaluaties zijn uitgevoerd op de ContinualBench en Meta-World benchmarks, inclusief real-robot experimenten.

Prestaties: ProgAgent presteert significant beter dan state-of-the-art baselines zoals Rank2Reward, TCN, Coreset, SI en zelfs een "Perfect Memory" agent (een ideale upper-bound die alle historische data onthoudt).
Metingen:
- Vergeetgedrag: ProgAgent toont de laagste "Regret" en hoogste "Average Performance" over een reeks taken.
- Sample Efficiency: De agent leert sneller en bereikt hogere success rates met minder data.
- Real-robot: Succesvol leren van complexe manipulatievaardigheden uit een klein aantal (few-shot) menselijke demonstraties, zelfs met ruis en mislukkingen in de data.
Ablatie-studie:
- Zonder de "push-back" mechanisme daalt de prestatie sterk door verdelingsverschuivingen.
- Zonder de continu-leer regularisaties (SI en Coreset) treedt catastrofaal vergeten op, hoewel de agent de huidige taak nog steeds goed kan leren (bewijs dat de beloningsfunctie alleen niet genoeg is voor levenslang leren).

Betekenis en Conclusie

De paper toont aan dat het combineren van een theoretisch onderbouwde, visuele beloningsfunctie met een hoogwaardig, parallelle systeemarchitectuur cruciaal is voor succesvol continu leren in robotica. ProgAgent bewijst dat architecturale efficiëntie (door JAX) en robuuste beloningsontwerp samen kunnen leiden tot agenten die niet alleen sneller leren, maar ook beter behoud van kennis tonen dan systemen met onbeperkt geheugen. Dit opent de weg voor autonome robots die zich kunnen aanpassen aan veranderende omgevingen zonder menselijke tussenkomst voor beloningsontwerp.