Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een meester-schilder bent die een heel specifiek kleur moet mengen: een exacte tint van "zonsondergang-oranje". Je hebt drie basisverven: cyaan, magenta en geel. Je doel is om deze drie in de perfecte verhouding te mixen om die ene, exacte kleur te krijgen.

Nu is het probleem: je kunt niet direct op een echte muur oefenen. Dat is te duur, te rommelig en je kunt je verf niet zomaar terugdraaien als je een fout maakt. Dus, je bouwt een virtuele wereld (een simulatie) op je computer. Hierin oefen je je kunstzinnige vaardigheden.

Maar hier zit de valkuil: wat je in de computer leert, werkt vaak niet als je het echt doet. De computer denkt dat verf zich gedraagt als wiskundige lijnen, maar in het echt is het een rommelige, onvoorspelbare wereld met lichtinvallen en onzuivere pigmenten. Dit noemen onderzoekers de "Sim-to-Real" kloof (de kloof tussen simulatie en realiteit).

Deze paper is als het receptboek voor een chef-kok die probeert een gerecht dat hij in de keuken van de computer heeft bedacht, ook echt te serveren in een restaurant. Ze ontdekken dat het niet alleen gaat om hoe je de verf mengt, maar vooral om hoe je de regels van het spel opstelt.

Hier is de uitleg van hun ontdekkingen, vertaald naar alledaagse taal:

1. Het Spelregels-boekje (De MDP)

In de wereld van kunstmatige intelligentie heet dit een "Markov Decision Process" (MDP). Stel je dit voor als het spelregels die je aan je robot geeft. De auteurs ontdekten dat kleine wijzigingen in deze regels een enorm verschil maken tussen succes en totale mislukking.

Ze keken naar vijf belangrijke regels:

Wat ziet de robot? (De staat)
Wat is het doel? (De doelkleur)
Hoe wordt hij beloond? (De beloning)
Wanneer stopt het spel? (De eindtijd)
Hoe werkt de verf in de computer? (De dynamiek)

2. De Grootste Ontdekkingen (Met Analogen)

A. Geef de robot een "Doelwit" in zijn hand (Doelkleur in de staat)

Stel je voor dat je een blindeman vraagt om een specifieke kleur te mengen, maar je vertelt hem niet welke kleur hij moet maken. Hij probeert dan een "gemiddelde" kleur te maken die misschien wel oké is voor één doel, maar faalt voor alles anders.

De les: Als je de robot niet vertelt welke kleur hij moet maken (de doelkleur), leert hij een "gemiddeld" gedrag. In de computer werkt dat nog redelijk, maar in het echt faalt hij volledig.
De oplossing: Geef de robot de doelkleur als een kaart in zijn hand. Dan kan hij specifiek voor dat doel plannen.

B. Kijk naar verhoudingen, niet naar absolute hoeveelheden (Staatrepresentatie)

Stel je voor dat je een recept hebt: "Voeg 200ml blauw toe". Als je dit recept gebruikt in een klein bakje of in een enorme emmer, werkt het niet hetzelfde.

De les: Robots die leren op basis van absolute hoeveelheden (bijv. "200 ml") zijn te stijf. Robots die leren op basis van verhoudingen (bijv. "2 delen blauw op 1 deel geel") zijn veel flexibeler. Ze begrijpen het principe van mengen, niet alleen de getallen.
De oplossing: Leer de robot de verhoudingen, dan werkt het in elke situatie.

C. Houd de beloning simpel (Beloningsfunctie)

Stel je voor dat je een kind leert fietsen.

Simpel: "Als je dichterbij de finish komt, krijg je een sterretje."
Complex: "Als je dichterbij de finish komt, maar je trapt te hard, krijg je een straf. En als je linksom draait, krijg je een kleine straf..."
De les: De complexe regels werken goed in de computer, maar in het echt wordt de robot erdoor verward en leert hij de verkeerde dingen. Simpele regels ("hoe dichter bij de kleur, hoe beter") werken veel robuuster.

D. De "Fysica" van de computer moet kloppen (Dynamiekmodellen)

Dit is misschien wel het belangrijkste punt.

De simpele computer: Stel je voor dat je in een computer leert dat als je blauw en geel mengt, je altijd groen krijgt. Dat is makkelijk, maar in het echt is het soms een beetje bruin of grijs door de kwaliteit van de verf.
De realistische computer: Als je de computer leert hoe verf echt werkt (met lichtabsorptie en onzuiverheden), is het leren in de computer veel moeilijker en langzamer. De robot maakt veel fouten in de simulatie.
De verrassing: Maar als je die robot daarna naar de echte wereld stuurt, werkt hij perfect! Omdat hij in de computer al heeft geleerd om met de "rommeligheid" van de echte wereld om te gaan.
De les: Een moeilijke, realistische simulatie leidt tot een betere robot in het echt. Een te simpele simulatie leidt tot een robot die in het echt faalt.

3. De Conclusie in het Kort

De onderzoekers hebben bewezen dat je niet zomaar een robot in een simpele computer kunt trainen en hopen dat hij het in het echt doet. Je moet de regels van het spel slim ontwerpen:

Vertel de robot altijd wat hij moet bereiken.
Leer hem verhoudingen, niet vaste getallen.
Geef hem simpele beloningen.
Laat hem oefenen in een realistische, moeilijke omgeving (zelfs als dat in de computer langzamer gaat).

De metafoor voor de toekomst:
Het is alsof je een piloot traint. Als je hem alleen traint in een perfecte, windstille simulator, crasht hij bij de eerste storm. Maar als je hem traint in een simulator die de wind, de regen en de turbulentie perfect nabootst, is hij klaar voor de echte wereld.

Deze paper geeft ons de handleiding om die "storm-simulator" voor industriële robots te bouwen, zodat ze veilig en precies kunnen werken in onze echte, rommelige fabrieken.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning" in het Nederlands.

Probleemstelling

Versterkend Leren (Reinforcement Learning - RL) toont veel potentie voor industriële procescontrole, maar beleidslijnen (policies) die in simulatie zijn getraind, lijden vaak onder een aanzienlijke "sim-to-real" kloof bij implementatie op fysieke hardware. Deze kloof ontstaat door discrepanties tussen de gesimuleerde en de echte wereld, wat leidt tot suboptimale of zelfs onveilig gedrag. In industriële toepassingen, zoals de productie van CAR-T-cellen (waarbij vloeistoffen met specifieke concentraties moeten worden gemengd), zijn de eisen aan precisie en veiligheid extreem hoog. Traditionele aanpakken om deze kloof te overbruggen, zoals domeinrandomisatie, focussen vaak alleen op de overgangsdynamica (transition dynamics), terwijl andere componenten van het Markov Decision Process (MDP) – zoals de staterepresentatie, beloningsfunctie en stopcriteria – vaak als vast worden beschouwd. Het paper onderzoekt of en hoe deze MDP-ontwerpelementen de overdracht van simulatie naar realiteit beïnvloeden.

Methodologie

De auteurs gebruiken een kleurenmix-taak als fysieke testomgeving. Een agent moet drie fysische printerinktkleuren (cyaan, magenta, geel) mengen om een doelfarbe te bereiken. De studie volgt een systematische, gefaseerde optimalisatiestrategie om de invloed van individuele MDP-componenten te isoleren:

Fase 1: Componentselectie
- Doel: Evaluatie van staterepresentatie, opname van de doelfarbe in de observatie, en beloningsontwerp.
- Variabelen:
  - Doel-inclusie: Wordt de doelfarbe ( $c_{target}$ ) meegenomen in de state? (Hypothese: zonder dit wordt het een POMDP, wat leidt tot een compromis-beleid dat faalt in de realiteit).
  - State Representatie: Vergelijking van absolute volumes versus relatieve verhoudingen (genormaliseerde ratios).
  - Beloning: Vergelijking van een simpele Euclidische afstandsbasis ( $R_1$ ) versus complexere beloningen met actie-penaliteiten ( $R_2, R_3$ ).
- Dynamica: Gebruik van een lineaire interpolatie (Lerp) als baseline.
Fase 2: Episoed-ontwerpoptimalisatie
- Doel: Bepalen van de optimale terminatiehorizon ( $T$ ) en tolerantie ( $\tau$ ).
- Vind: Striktere drempels (minder stappen, lagere tolerantie) worden getest om te zien of dit de precisie ten goede komt, ten koste van de trainingsstabiliteit.
Fase 3: Dynamische Robuustheid
- Doel: Testen of de geoptimaliseerde MDP-generaliseert naar fysisch realistischere modellen.
- Modellen: Vergelijking van Lerp (lineair) met Kubelka-Munk (KM, fysiek gebaseerd op absorptie/verstrooiing) en Weighted Geometric Mean (WGM, spectrale menging).

Robuustheidsmechanismen: Om de overdracht te ondersteunen, worden tijdens het trainen in alle fasen ruis toegevoegd aan de RGB-observaties en adversarial perturbations (geïnspireerd op ARL) gebruikt.

Hardware Validatie: De uiteindelijke beleidslijnen worden getest op een fysiek platform met een pipetteer- en roermechanisme, waarbij de kleur wordt gemeten via een webcam in een lichtgecontroleerde box.

Belangrijkste Bijdragen

Systematische Analyse: Een gestructureerde studie die aantoont hoe specifieke MDP-keuzes (state, reward, termination, dynamics) de sim-to-real transfer beïnvloeden, in plaats van alleen te focussen op dynamische mismatch.
Empirische Kwantificering: Het kwantificeren van de sim-to-real kloof over verschillende configuraties, waarbij wordt aangetoond welke ontwerpfactoren de grootste impact hebben.
Ontwerprichtlijnen: Identificatie van patronen die de overdraagbaarheid verbeteren en het blootleggen van faalmodi veroorzaakt door overfitting door de formulering van het MDP.

Resultaten

De resultaten, gebaseerd op simulatie en hardware-experimenten, tonen de volgende cruciale inzichten:

Doelfarbe-inclusie is cruciaal: Beleidslijnen die de doelfarbe ( $c_{target}$ ) niet in de state opnemen (M2), falen volledig in de realiteit, ondanks redelijke simulatieprestaties. Zonder doel-informatie leert de agent een "compromis-beleid" dat werkt voor de gemiddelde simulatiedynamica, maar niet kan adapteren aan de specifieke doelen in de realiteit.
State Representatie: Genormaliseerde ratio-based representaties (State 4) generaliseren beter dan absolute volume-representaties, omdat ze schaal-invariant zijn.
Beloningscomplexiteit: Simpele, op afstand gebaseerde beloningen ( $R_1$ ) leiden tot stabielere training en betere transfer dan complexe beloningen met actie-penaliteiten, die de neiging hebben om te overfitten op simulatie-specifieke dynamica.
Dynamische Fidelity:
- Simpele modellen (Lerp) convergeren snel in simulatie, maar falen vaak in de realiteit onder strikte precisie-eisen.
- Fysisch gebaseerde modellen (KM en WGM) zijn moeilijker te trainen (langzamere convergentie, hogere instabiliteit in simulatie), maar resulteren in tot 50% succes in de realiteit onder strikte precisie-eisen, terwijl vereenvoudigde modellen daar volledig falen.
Interactie tussen Episoed-parameters en Dynamica: Strikte trainingsdrempels (korte tijd, hoge precisie) werken alleen goed als het onderliggende dynamisch model ook fysiek accuraat is. Bij lage-fidelity modellen leiden strikte eisen tot falen; bij hoge-fidelity modellen verbeteren ze de transfer.

Significantie

Dit onderzoek biedt praktische richtlijnen voor het implementeren van RL in industriële procescontrole. De belangrijkste conclusie is dat het optimaliseren van de MDP-formulering (vooral het opnemen van doelen in de state en het gebruik van fysisch accurate dynamische modellen) even belangrijk is als het verbeteren van de dynamische modellen zelf.

De studie onderstreept dat het simpelweg "trainen in simulatie en testen in de realiteit" niet werkt als de MDP-structuur niet is ontworpen voor transfer. Voor toepassingen zoals de productie van CAR-T-cellen, waar precisie levensbelangrijk is, biedt deze aanpak een route om RL-beleidslijnen te ontwikkelen die robuust zijn in de fysieke wereld, zelfs wanneer de simulatie niet perfect de realiteit nabootst. De bevindingen suggereren dat investeren in fysisch accurate simulatiemodellen en doelgerichte state-representaties de sleutel is tot het overbruggen van de sim-to-real kloof.

Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning

1. Het Spelregels-boekje (De MDP)

2. De Grootste Ontdekkingen (Met Analogen)

A. Geef de robot een "Doelwit" in zijn hand (Doelkleur in de staat)

B. Kijk naar verhoudingen, niet naar absolute hoeveelheden (Staatrepresentatie)

C. Houd de beloning simpel (Beloningsfunctie)

D. De "Fysica" van de computer moet kloppen (Dynamiekmodellen)

3. De Conclusie in het Kort

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models