Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Each language version is independently generated for its own context, not a direct translation.

Van "Klaslokaal" naar "Live-les": Een nieuwe manier voor robots om te leren

Stel je voor dat je een robot wilt leren om een bal te vangen. In de traditionele wereld van kunstmatige intelligentie (AI) werkt dit vaak als een klassiek schoolexamen.

De robot doet een oefening, slaagt de gegevens op in een enorme "herinneringsmap" (een replay buffer), en leest daarna een hele stapel oude oefeningen door om een les te trekken. Dit heet "batch learning". Het is heel nauwkeurig, maar het kost veel tijd en energie. Alsof je voor elke stap die je zet, eerst naar je hele schoolboekenkast moet lopen om te kijken wat je gisteren hebt geleerd. Voor een kleine robot op een batterij is dit te zwaar; hij zou snel leeglopen of vastlopen.

Het probleem: De "Simulatie" vs. de "Werkelijkheid"
Vaak wordt een robot eerst in een virtuele wereld (een simulatie) getraind, waar het veilig en makkelijk is. Maar als je hem daarna op de echte wereld zet (bijvoorbeeld een hond die loopt of een robotarm die pakt), gaat het vaak mis. De echte wereld is ruwer, onvoorspelbaarder en heeft andere wetten. Dit noemen we de Sim2Real-kloof.

De huidige oplossing is: train in de simulatie, en stuur de robot naar de echte wereld om daar "bij te leren". Maar omdat de robot geen ruimte heeft voor die zware "herinneringsmap", moet hij leren van elke enkele ervaring die hij direct doet, zonder terug te kijken. Dit heet "streaming learning". Het is alsof je moet leren zwemmen door direct het koude water in te springen, zonder eerst een boekje te lezen.

De Oplossing: Twee nieuwe "Live-leraar"-algoritmes
De auteurs van dit paper hebben twee nieuwe methoden bedacht, S2AC en SDAC. Je kunt deze zien als twee slimme, flexibele trainers die een robot leren om direct in het water te springen, zonder dat hij oververhit raakt.

S2AC (De Stochastische Trainer): Deze trainer is goed voor situaties waar een beetje chaos en variatie nodig is. Hij leert de robot om niet alleen de "beste" beweging te doen, maar ook om een beetje te variëren, zodat hij niet vastloopt in een slechte gewoonte.
SDAC (De Deterministische Trainer): Deze trainer is meer gericht op precisie en vaste patronen. Hij leert de robot om een specifieke, exacte beweging te maken, maar voegt wel een klein beetje "ruis" (zoals een trilling) toe om te voorkomen dat de robot te star wordt.

De Grote Uitdaging: De "Schakel" tussen Oefenen en Werken
Het echte geniale aan dit paper is niet alleen dat ze deze trainers hebben bedacht, maar hoe ze ze koppelen aan de oude, zware methoden.

Stel je voor dat je een speler eerst in een virtuele game (de simulatie) traint met een zware computer (de "batch" methode). Vervolgens moet die speler overstappen naar een kleine handheld-console (de echte robot) die alleen "live" kan spelen.

Het probleem: Als je de speler direct van de zware computer naar de handheld schakelt, crasht het spel. De "geest" van de speler is te zwaar geworden voor de kleine console. De oude methode (Adam, een optimiser) bouwt de hersenen van de robot op een manier op die niet meer past bij de nieuwe, lichte methode.
De oplossing van de auteurs: Ze hebben een tussenstap bedacht. Ze laten de robot tijdens de zware training al een beetje "lichter" denken. Ze gebruiken een andere rekenmethode (SGDC) die de hersenen van de robot flexibel houdt, zodat hij later makkelijk kan overstappen naar de lichte, live-methode zonder ineen te klappen.

Waarom is dit belangrijk?
Dit onderzoek opent de deur voor robots die echt onafhankelijk kunnen worden.

Sim2Real: Je kunt een robot in de fabriek trainen en hem daarna direct op een bouwplaats zetten, waar hij zich direct aanpast aan de stoffige, onzekere realiteit.
Real2Sim: Je kunt een robot in de echte wereld laten lopen om data te verzamelen, en die data gebruiken om een perfecte simulatie te bouwen.
Energiebesparing: Robots op kleine batterijen (zoals drones of kleine hondjes) kunnen nu leren zonder hun batterij in een minuut leeg te trekken.

Samengevat in één zin:
De auteurs hebben een brug gebouwd tussen de zware, nauwkeurige training in de computerwereld en de lichte, directe training in de echte wereld, zodat robots niet alleen slim zijn, maar ook mobiel en aanpasbaar kunnen zijn in onze dagelijkse realiteit.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De huidige state-of-the-art Deep Reinforcement Learning (DRL) methoden voor continue besturing (zoals SAC en TD3) presteren uitstekend, maar zijn computatief zwaar. Ze zijn afhankelijk van:

Replay buffers: Om temporal correlaties te verminderen en sample-efficiëntie te verhogen.
Batch-updates: Updates die gebaseerd zijn op een set van ervaringen in plaats van één enkele stap.
Doelnetwerken (Target networks): Voor stabiliteit.

Deze mechanismen maken het moeilijk om DRL direct op resource-beperkte hardware (zoals edge devices of kleine robots) te implementeren. Hoewel er al "streaming" DRL-methoden bestaan die puur online werken (zonder buffers), zijn deze vaak niet compatibel met de bestaande batch-methoden. Dit vormt een groot probleem voor praktische toepassingen zoals Sim2Real-overdracht, waarbij een beleid eerst in simulatie wordt getraind (met batch-methoden) en vervolgens op de echte robot moet worden verfijnd (met streaming-methoden). Bestaande streaming-algoritmen (zoals Stream AC(λ)) zijn vaak niet direct compatibel met de architecturen van SAC of TD3, wat een naadloze overgang verhindert.

Methodologie

De auteurs stellen twee nieuwe streaming DRL-algoritmen voor die specifiek zijn ontworpen om compatibel te zijn met SAC en TD3, maar volledig online werken:

Streaming Soft Actor-Critic (S2AC): Een streaming-versie van SAC.
Streaming Deterministic Actor-Critic (SDAC): Een streaming-versie van TD3.

Gemeenschappelijke architecturale keuzes voor stabiliteit:
Om de instabiliteit die vaak optreedt bij online updates (in tegenstelling tot batch-updates) te mitigeren, gebruiken beide algoritmen:

Sparse network initialization: Om de initiële plasticiteit te vergroten.
LayerNorm: Toegepast op de pre-activaties van elke laag.
Data-normalisatie: Online normalisatie van observaties en schaling van beloningen (reward scaling) volgens de methoden van Engstrom et al. (2020).
ObGD Optimizer (Overshooting-bounded Gradient Descent): Voor de critic-network updates om overshooting te voorkomen zonder extra rekentijd, wat cruciaal is voor stabiliteit in streaming settings.

Specifieke innovaties:

S2AC:
- Gebruikt een soft Bellman-residu zonder doelnetwerken.
- Adaptieve Entropie: Een cruciale aanpassing is het dynamisch aanpassen van de entropie-coëfficiënt $\alpha$ . Omdat beloningen worden genormaliseerd op basis van de lopende standaardafwijking ( $\sigma_r$ ), zou een vaste $\alpha$ leiden tot een disbalans. De auteurs stellen voor om $\alpha$ te schalen als $\alpha / \sigma_r$ om de relatieve weging tussen beloning en entropie constant te houden.
SDAC:
- Een deterministische policy met off-policy updates.
- Target Noise: Net als bij TD3 wordt er ruis toegevoegd aan de doelwaarde (target) om overfitting op scherpe pieken in de Q-waarde te voorkomen en de stabiliteit te verhogen.
- Geen doelnetwerken; de online Q-schatting wordt direct gebruikt.

Overgang van Batch naar Streaming (Finetuning):
De auteurs onderzoeken de praktische uitdagingen bij het overschakelen van een voorgetrainde batch-beleid (bijv. TD3) naar streaming finetuning (SDAC). Ze ontdekten dat een directe overgang vaak faalt vanwege een incompatibiliteit in de optimizer:

Batch-methoden gebruiken vaak Adam.
Streaming-methoden gebruiken ObGD.
Adam neigt om grote normen in de critic-weights te creëren tijdens training, wat de plasticiteit van het netwerk vermindert en aanpassing aan nieuwe data (zoals in de echte wereld) bemoeilijkt.
Oplossing: De auteurs stellen voor om tijdens de pre-training (batch-fase) de critic-optimizer te vervangen door SGDC (Stochastic Gradient Descent with Clipping), die qua gedrag dicht bij ObGD ligt. Dit behoudt de prestaties van de pre-training maar zorgt voor kleinere weight-normen, waardoor het netwerk veel beter kan finetunen in de streaming-fase.

Belangrijkste Bijdragen

Nieuwe Algoritmen: Introductie van S2AC en SDAC, de eerste streaming-algoritmen die specifiek zijn ontworpen om naadloos te kunnen aansluiten op de populaire batch-methoden SAC en TD3.
Hyperparameter Robuustheid: In tegenstelling tot andere streaming methoden (zoals AVG) vereisen S2AC en SDAC geen ingewikkelde of omgevings-specifieke hyperparameter-tuning om goede prestaties te behalen.
Batch-to-Streaming Strategie: Het is de eerste studie die de praktische uitdagingen van het overschakelen van batch naar streaming tijdens finetuning analyseert en een concrete strategie (het gebruik van SGDC in plaats van Adam tijdens pre-training) voorstelt om dit probleem op te lossen.
Verbeterde Batch-methoden: De auteurs tonen aan dat de normalisatietechnieken die nodig zijn voor streaming, ook de prestaties van standaard batch-methoden (SAC en TD3) kunnen verbeteren.

Resultaten

Prestaties: Zowel S2AC als SDAC behalen prestaties die vergelijkbaar zijn met de state-of-the-art streaming baseline (Stream AC(λ)) op standaard benchmarks (MuJoCo Gym en DM Control Suite), zonder dat er per-omgeving tuning nodig is.
Finetuning: In Sim2Real-scenario's (waarbij een beleid in simulatie wordt getraind en dan op de echte robot wordt verfijnd) toont de aanpak met SGDC als critic-optimizer tijdens pre-training aanzienlijk betere resultaten dan een directe overgang van Adam naar ObGD. In sommige gevallen overtreft het gefinetunteerde streaming-beleid zelfs de prestaties van training vanaf nul, met minder samples.
Ablatie-studies: De studies bevestigen dat de adaptieve entropie-schaling essentieel is voor S2AC en dat target-ruis cruciaal is voor het succes van SDAC.

Betekenis en Impact

Dit werk is een belangrijke stap in het mogelijk maken van on-device learning en continual learning in de robotica. Het lost een fundamenteel probleem op: hoe kun je een robuust beleid trainen in simulatie (met zware batch-methoden) en dit vervolgens veilig en efficiënt aanpassen op de echte hardware (met lichte streaming-methoden)?

Door de compatibiliteit tussen deze twee werelden te herstellen, maakt het onderzoek het mogelijk om:

Robots adaptief te laten leren in dynamische omgevingen zonder zware serverinfrastructuur.
De "Sim2Real-gap" effectiever te overbruggen.
Systemen te ontwerpen die dynamisch kunnen schakelen tussen batch- en streaming-modi afhankelijk van de beschikbare rekenkracht (bijv. tijdens energiereductie).

Kortom, het paper pleit ervoor dat batch- en streaming-algoritmen niet als gescheiden paradigma's moeten worden gezien, maar als complementaire onderdelen van een gedeelde algoritmische basis voor robuuste, real-time besturing.

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions