Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts

Each language version is independently generated for its own context, not a direct translation.

DROCO: De Twee-Weg Veiligheidsriem voor Robots

Stel je voor dat je een robot wilt leren om te lopen. Je hebt twee soorten data:

De 'Oude' Data (Bron): Een enorme verzameling video's van een robot die in een simulator loopt. Maar deze simulator is niet perfect; de zwaartekracht is net iets anders, of de wielen draaien net iets anders dan in de echte wereld.
De 'Nieuwe' Data (Doel): Een heel klein beetje data van de echte robot in de echte wereld. Omdat het moeilijk is om een echte robot te laten vallen en weer op te tillen, hebben we maar weinig van deze data.

Het doel is om de robot te leren lopen in de echte wereld, gebruikmakend van die enorme hoeveelheid simulator-data, maar zonder dat de robot struikelt zodra hij de echte wereld in gaat.

Het Probleem: De "Schok" bij het Overtreden

In het verleden hebben wetenschappers geprobeerd deze twee databronnen te mixen. Ze dachten: "Meer data is altijd beter!" Maar ze ontdekten een vervelend probleem.

Stel je voor dat je een piloot traint in een vliegsimulator. De simulator is geweldig, maar hij heeft een klein foutje: hij negeert een beetje de wind. De piloot leert perfect vliegen in de simulator. Maar zodra hij in een echt vliegtuig stapt en er is een klein windje, valt hij door de mand. Hij is te specifiek getraind op de 'schone' simulator en kan niet omgaan met de onverwachte realiteit.

Dit is wat er gebeurt met robots in de 'Cross-Domain Offline Reinforcement Learning':

Train-tijd: De robot leert goed van de data.
Test-tijd: Zodra de robot in de echte wereld komt (waar de 'dynamiek' verschilt, bijvoorbeeld door slijtage of een andere ondergrond), crasht hij.

De auteurs van dit paper zeggen: "We moeten niet alleen zorgen dat de robot goed leert (train-tijd), maar ook dat hij robuust is als de wereld verandert (test-tijd)."

De Oplossing: DROCO (De Twee-Weg Veiligheidsriem)

De auteurs hebben een nieuwe methode bedacht genaamd DROCO. Ze gebruiken een slimme truc die we kunnen vergelijken met het trainen van een atleet met een twee-weg veiligheidsriem.

1. De Slimme Bellman Operator (De "Wat als?"-trainer)

Normaal gesproken leert een robot door te kijken naar wat er gebeurt: "Als ik hier spring, land ik daar."
DROCO doet iets anders voor de simulator-data (de bron). Het vraagt zich voortdurend af: "Wat als dit net iets anders was?"

Voor de echte data: De robot leert gewoon wat er gebeurt.
Voor de simulator-data: De robot wordt getraind alsof de grond net iets verschuift of de zwaartekracht verandert. Hij leert de slechtst mogelijke uitkomst te verwachten binnen een bepaalde marge.

De Analogie: Stel je voor dat je een atleet traint voor een marathon.

De normale trainer laat hem rennen op een perfect vlak asfalt (de simulator).
De DROCO-trainer zegt: "Oké, ren op het asfalt, maar stel je voor dat er hier en daar een steen ligt of dat je schoenen net iets zwaarder zijn."
Hierdoor leert de atleet niet alleen te rennen, maar ook te aanpassen als de weg niet perfect is. Hij wordt "dubbel robuust": goed in de training én veilig in de race.

2. De "Boete" voor Te Optimistische Dromen (Value Penalty)

Soms dromen robots te mooi. Ze denken: "Als ik hier spring, land ik perfect!" Maar in de realiteit is dat niet zo. Dit heet "over-schatting".

DROCO gebruikt een slimme boete. Als de robot te optimistisch is over wat er gaat gebeuren in de simulator, krijgt hij een "boete" (een straf voor zijn Q-waarde).

Analogie: Het is alsof je een kind leert fietsen. Als het kind denkt: "Ik kan over die hoge muur springen!", zeg je: "Nee, dat is te optimistisch, je valt er waarschijnlijk af." Je maakt het kind iets meer realistisch, zodat het niet valt als het echt probeert.

3. De "Veilige" Lijst (Huber Loss)

Soms zijn er in de data rare uitschieters (bijvoorbeeld een sensor die een gekke waarde meet). Normale wiskunde wordt hierdoor gek. DROCO gebruikt een speciale wiskundige formule (Huber Loss) die niet in paniek raakt bij rare waarden.

Analogie: Stel je voor dat je een groep mensen vraagt naar hun inkomen. Als er één miljardair tussen zit, trekt die het gemiddelde enorm omhoog. De Huber Loss is als een slimme teller die zegt: "Oké, die ene miljardair is raar, we nemen hem mee, maar we laten hem niet het hele gemiddelde verpesten."

Waarom is dit geweldig?

De auteurs hebben hun methode getest op robots die moeten lopen (zoals een hopper die hopt of een cheeta die rent).

Resultaat: Waar andere methoden crashten zodra de robot een klein beetje veranderde (bijvoorbeeld een andere ondergrond of een slijtage aan de motor), bleef DROCO stabiel lopen.
De Kern: DROCO leert de robot niet alleen wat te doen, maar ook hoe om te gaan met onzekerheid. Het maakt de robot niet alleen slim, maar ook veerkrachtig.

Samenvatting in één zin

DROCO is een slimme manier om robots te trainen met data van een onvolmaakte simulator, zodat ze niet alleen goed presteren in de training, maar ook niet in paniek raken als de echte wereld net iets anders is dan verwacht. Het is de perfecte balans tussen leren en voorzichtig zijn.

Each language version is independently generated for its own context, not a direct translation.

Titel: DUAL-ROBUST CROSS-DOMAIN OFFLINE REINFORCEMENT LEARNING AGAINST DYNAMICS SHIFTS

Auteurs: Zhongjian Qiao et al. (CityUHK, UIUC, Tsinghua, Yale, CUHK(SZ), Tencent)
Publicatie: ICLR 2026

1. Het Probleem

Traditioneel Offline Reinforcement Learning (RL) leert een beleid (policy) uitsluitend uit een vooraf vastgelegde dataset, zonder interactie met de omgeving. Dit is kostenefficiënt en veilig, maar lijdt vaak aan beperkte data-coverage. Om dit op te lossen, wordt Cross-Domain Offline RL gebruikt, waarbij data uit een bron-domein (source domain, vaak een simulator of een andere omgeving) wordt gecombineerd met beperkte data uit een doeldomein (target domain, de echte omgeving).

De huidige staat van de kunst (SOTA) richt zich voornamelijk op train-time robustheid: het oplossen van de mismatch tussen de dynamica van de bron- en doeldomeinen tijdens het trainen. Echter, deze methoden negeren vaak test-time robustheid. Wanneer een getraind beleid wordt ingezet in de echte wereld, kunnen de dynamica van de omgeving veranderen door slijtage, onzekerheid of externe verstoringen (dynamics perturbations).

De kernvraag: Is een beleid dat is getraind met cross-domain offline RL, voldoende robuust tegen dynamische verstoringen op het moment van inzetten (test-time), vooral wanneer de data uit het doeldomein beperkt is?
De bevinding: Het paper toont empirisch aan dat bestaande methoden extreem kwetsbaar zijn voor test-time dynamische verschuivingen, wat leidt tot een drastische prestatiedaling.

2. Methodologie: DROCO

De auteurs introduceren DROCO (Dual-RObust Cross-domain Offline RL), een algoritme dat zowel train-time als test-time robustheid garandeert. De methode bestaat uit drie hoofdcomponenten:

A. Robust Cross-Domain Bellman (RCB) Operator

Het hart van DROCO is een nieuwe Bellman-operator die onderscheid maakt tussen data uit het bron- en doeldomein:

Doeldomein data: Gebruikt de standaard in-sample Bellman-update om de prestaties in de schone omgeving te maximaliseren.
Brondomein data: Past een robuste Bellman-update toe. In plaats van de verwachte waarde onder de bekende dynamica te nemen, minimaliseert deze operator de waarde over een onzekerheidsset van mogelijke dynamica (dynamics uncertainty set).
Dualiteit: Door de robuuste operator alleen toe te passen op de brongegevens, wordt het beleid conservatief ten opzichte van de uit-distributie (OOD) dynamica (train-time robustheid) en tegelijkertijd voorbereid op verstoringen in de omgeving (test-time robustheid).

B. Praktische Implementatie via Ensemble Dynamics Modeling

De theoretische RCB-operator vereist een onbekende onzekerheidsset, wat in de praktijk lastig is. DROCO lost dit op door:

Een ensemble van dynamische modellen te trainen op de beperkte doeldata.
Deze ensemble-predicties te gebruiken als steekproeven uit de onzekerheidsset, in plaats van willekeurige ruis toe te voegen. Dit maakt de berekening haalbaar en minder conservatief.

C. Technische Verbeteringen voor Waarde-estimaties

Het gebruik van een infimum-operator (minimale waarde) en dynamische modellen kan leiden tot waarde-over- of onderschatting. DROCO introduceert twee technieken om dit te corrigeren:

Dynamic Value Penalty: Een dynamische strafterm die wordt toegepast op brongegevens. Deze term vergelijkt de geschatte waarde met de minimale waarde voorspeld door het ensemble. Een parameter $\beta$ $β$ regelt de intensiteit:
- $\beta > 1.0$ : Verhoogt de straf om waarde-overestimatie te bestrijden.
- $\beta < 1.0$ : Verlaagt de straf om waarde-onderschatting te voorkomen.
Huber Loss: In plaats van de standaard $L_2$ -fout (MSE) voor de Bellman-update op brongegevens, wordt de Huber loss gebruikt. Deze is minder gevoelig voor outliers (extreme waarden) dan $L_2$ , maar gedraagt zich als $L_2$ voor kleine fouten, wat de stabiliteit van het trainingsproces verbetert.

3. Belangrijkste Bijdragen

Empirisch Bewijs: Het paper demonstreert dat cross-domain offline RL zeer gevoelig is voor test-time dynamische verstoringen, vooral bij beperkte doeldata.
Theoretische Fundamenten: De auteurs bewijzen dat de RCB-operator een $\gamma$ -contractie is en theoretisch aantonen dat deze operator dual robustness (train- en test-time) biedt onder bepaalde voorwaarden.
Het DROCO Algoritme: Een praktisch, implementeerbaar algoritme dat de RCB-operator combineert met een dynamische waarde-straf en Huber loss om waarde-estimatiefouten te minimaliseren.
Uitgebreide Validatie: Experimenten tonen aan dat DROCO superieur is aan sterke baselines (zoals IGDF, OTDF, BOSA) in diverse scenario's, inclusief kinematische verschuivingen (beperkte gewrichten) en morfologische verschuivingen (veranderde robotvorm).

4. Resultaten

De evaluatie vond plaats op MuJoCo-taken (HalfCheetah, Hopper, Walker2d, Ant) met verschillende datasetkwaliteiten (Medium, Expert, etc.).

Train-time Robustheid: DROCO behaalde de hoogste genormaliseerde scores in 9 van de 16 taken en scoorde het hoogst in de totale score (1105.2), significant beter dan de tweede beste methode (OTDF met 969.8).
Test-time Robustheid: Bij blootstelling aan dynamische verstoringen (kinematisch, morfologisch en "min-Q" adversariale aanvallen) degradeerde DROCO veel minder dan de baselines.
- Voorbeeld: Bij kinematische verschuivingen degradeerde DROCO met slechts 19.3%, terwijl IGDF en OTDF meer dan 50% verlies leden.
- DROCO behield consistentie zelfs bij hoge niveaus van "min-Q" perturbaties (adversariale aanvallen die de Q-waarde minimaliseren).
Ablatie Studies: De studies bevestigden dat zowel de dynamische waarde-straf als de Huber loss essentieel zijn voor de uiteindelijke prestaties en robustheid.

5. Betekenis en Impact

Dit werk is significant omdat het de eerste is die systematisch dual robustness (train- en test-time) adresseert in de context van cross-domain offline RL.

Praktische Toepassing: Het biedt een oplossing voor het veilige inzetten van RL-agenten in de echte wereld, waar omgevingsdynamica nooit perfect stabiel zijn (bijv. robotica met slijtage).
Theoretische Vooruitgang: Het koppelt de concepten van robuust RL (Robust RL) en cross-domain transfer learning, en biedt een theoretisch onderbouwde operator die beide problemen simultaan oplost.
Toekomstige Richting: Het paper opent de deur voor onderzoek naar methoden die niet alleen leren van data uit verschillende domeinen, maar ook actief voorbereiden op onzekerheid tijdens de deploy-fase.

Samenvattend introduceert DROCO een nieuw paradigma in offline RL waarbij robustheid tegen veranderingen in de omgeving (zowel tijdens training als tijdens inzet) centraal staat, wat cruciaal is voor de realisatie van betrouwbare autonome systemen.