Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Each language version is independently generated for its own context, not a direct translation.

🚗 De Kunst van het Rijden zonder GPS: ROMI uitgelegd

Stel je voor dat je een auto wilt leren rijden, maar je hebt geen rijinstructeur en je mag niet zelf oefenen op de weg. Je hebt alleen een stapel oude video-opnames van andere mensen die hebben gereden (de "offline dataset").

Dit is precies wat Offline Reinforcement Learning (RL) doet: een kunstmatige intelligentie (AI) leren om taken uit te voeren op basis van historische data, zonder dat ze de wereld echt kunnen verkennen.

Het Probleem: De "Verkeerde" Kaart

De meeste slimme methoden proberen een virtuele kaart (een dynamisch model) te bouwen van hoe de wereld werkt. De AI denkt dan: "Als ik hier stuur, gebeurt dat daar." Vervolgens pland ze routes op deze kaart.

Maar hier zit de valstrik: De kaart is nooit 100% perfect.
Stel je voor dat je AI een kaart heeft getekend van een bos. Op de kaart staat een pad dat rechtuit gaat, maar in werkelijkheid is daar een afgrond. Als de AI te veel op deze kaart vertrouwt, probeert ze over die afgrond te rijden en crasht ze. In de AI-wereld noemen we dit "model exploitation": de AI vindt een zwak punt in haar eigen simulatie en probeert daar een trucje mee te spelen, wat in de echte wereld funest is.

Om dit te voorkomen, moeten we de AI pessimistisch maken. Ze moet denken: "Misschien is dat pad wel gevaarlijk, dus ik ga er niet naartoe."

De Oude Methode (RAMBO): Te bang of te stug

Er was al een populaire methode genaamd RAMBO. RAMBO probeerde de AI bang te maken door te zeggen: "Stel je het ergste scenario voor dat mogelijk is op je kaart, en vermijd dat."

Het probleem met RAMBO was echter dat het te extreem was.

Analogie: Het is alsof je een kind leert fietsen door te zeggen: "Als je ook maar één centimeter uit de lijn komt, val je direct de hel in."
Gevolg: De AI werd zo bang dat ze nergens meer durfde te gaan (te conservatief). Of, als je de instelling iets veranderde, werd het zo chaotisch dat de AI "crashte" tijdens het leren (gradient explosion). Het was heel moeilijk om de juiste balans te vinden.

De Nieuwe Methode (ROMI): De Slimme Coach

De auteurs van dit paper hebben een nieuwe methode bedacht: ROMI. Ze noemen het een "Robuuste, waarde-bewuste modelleer-methode".

ROMI lost de problemen van RAMBO op met twee slimme trucs:

1. De "Waarde-Bewuste" Kaart (Robust Value-Aware Learning)
In plaats van de AI te laten raden wat het ergste scenario is (wat vaak fout gaat), zegt ROMI tegen de AI:
"Bouw je kaart zo, dat als je een kleine fout maakt (bijvoorbeeld een steen op de weg), je toch denkt: 'Oké, als ik hierop trap, is het misschien niet zo'n groot probleem, maar het is ook niet geweldig.'"

Analogie: Stel je voor dat je een speler in een computerspel bent. RAMBO zegt: "Als je ook maar iets raakt, is het spel voorbij." ROMI zegt: "Als je een steen raakt, krijg je een kleine straf, maar je kunt nog steeds spelen. Weet je zeker dat je die steen wilt raken?"
Het voordeel: De AI wordt voorzichtig, maar niet paralyserend bang. Ze leert om risico's te managen in plaats van ze te vermijden.

2. De Slimme Weegschaal (Implicitly Differentiable Adaptive Weighting)
Dit is de tweede, nog slimmere truc. Soms is de kaart van de AI goed voor de "normale" wegen, maar slecht voor de "vreemde" wegen (de plekken waar ze nog nooit is geweest).
ROMI gebruikt een twee-laags systeem (bi-level optimization):

Laag 1 (De Bouwer): Bouwt de kaart zo goed mogelijk.
Laag 2 (De Coach): Kijkt naar de kaart en zegt: "Hey, op dit stukje van de kaart ben je niet goed. Ik ga de trainingssessies op dat stukje zwaarder wegen, zodat je daar extra aandacht aan besteedt."
Analogie: Stel je voor dat je een student bent die een examen doet.
- De oude methode gaf je een boek met alle theorie en zei: "Leer alles."
- ROMI is als een slimme leraar die ziet dat je goed bent in wiskunde, maar slecht in geschiedenis. De leraar zegt: "We gaan 80% van je tijd besteden aan geschiedenis (de zwakke plekken) en 20% aan wiskunde."
- De leraar past dit automatisch aan terwijl je leert. Zo wordt de AI niet alleen goed in het simuleren van de wereld, maar ook goed in het voorspellen van de gevolgen op plekken waar ze nog niet eerder is geweest.

Wat levert dit op?

De auteurs hebben ROMI getest op verschillende datasets (zoals het laten lopen van een robot of het besturen van een auto).

Resultaat: ROMI werkt veel beter dan RAMBO.
Waarom? Omdat het niet te bang is (niet te conservatief) en niet te stug (geen crashes tijdens het leren). Het leert sneller en is veiliger.

Samenvatting in één zin

ROMI is een nieuwe manier om AI te leren rijden op basis van oude video's, door haar een slimme, zelfcorrigerende kaart te geven die voorzichtig is zonder te paniekeren, en die automatisch weet waar ze extra moet oefenen.

Het is alsof je van een paniekerige, onzeker leerling een ervaren, zelfverzekerde chauffeur maakt die precies weet waar de gevaren liggen, zonder dat ze bang is om überhaupt het stuur vast te houden.

Each language version is independently generated for its own context, not a direct translation.

Titel: Model-Based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting (ROMI)

Auteurs: Zhongjian Qiao et al. (CityUHK, Tencent, UChicago, HKUST(GZ))
Publicatie: ICLR 2026

1. Het Probleem

Model-based offline Reinforcement Learning (RL) probeert de prestaties van offline RL te verbeteren door een dynamisch model van de omgeving te leren. Dit model stelt het beleid (policy) in staat om te exploreren zonder interactie met de echte omgeving. Een groot probleem hierbij is model-exploitatie: het beleid kan leren om gebieden te verkennen waar het dynamisch model onnauwkeurig is, wat leidt tot een degradatie van de prestaties.

Om dit te voorkomen, is conservatisme (pessimisme) noodzakelijk. Een prominente methode hiervoor is RAMBO (Rigter et al., 2022), die een adversarial learning framework gebruikt om het model te dwingen de waarde (Q-waarde) in onbekende (OOD) gebieden te verlagen.

De auteurs identificeren echter twee kritieke tekortkomingen in RAMBO:

Oncontroleerbaar conservatisme: De trade-off coefficient ( $\lambda$ ) die het adversarial effect reguleert, moet extreem klein worden ingesteld (bijv. $3 \times 10^{-4}$ ). Als $\lambda$ iets groter wordt, leidt dit tot ernstige onderschatting van Q-waarden en instabiliteit.
Instabiliteit en Gradiënt-Explosie: Bij het verhogen van $\lambda$ om meer conservatisme te bereiken, explodeert de gradiënt van het adversarial verlies, wat leidt tot training collapse. Dit maakt RAMBO onbetrouwbaar voor praktische toepassing.

2. Methodologie: ROMI

Om deze problemen op te lossen, stellen de auteurs ROMI (RObust value-aware Model learning with Implicitly differentiable adaptive weighting) voor. De methode bestaat uit twee kerncomponenten:

A. Robuuste Value-Aware Model Learning (RVL)

In plaats van het gebruik van modelgradiënten om een adversarial loss te minimaliseren (zoals bij RAMBO), introduceert ROMI een nieuwe aanpak gebaseerd op Wasserstein-afstand.

Concept: Het dynamisch model wordt getraind om toekomstige staten te voorspellen waarvan de waarde dicht bij het minimum Q-waarde ligt binnen een schaal-aanpasbare onzekerheidsset ( $U_\xi$ ).
Mechanisme: De onzekerheidsset wordt gedefinieerd via de Wasserstein-afstand. Door de schaal $\xi$ van deze set aan te passen, kan het niveau van conservatisme direct en controleerbaar worden ingesteld.
Voordeel: Dit elimineert de noodzaak voor een handmatig ingestelde, gevoelige hyperparameter $\lambda$ en voorkomt gradiënt-explosie. Het model leert een "mild conservatieve" waardefunctie binnen de data-distributie, terwijl conservatisme in OOD-gebieden wordt gegarandeerd door de generalisatie binnen de onzekerheidsset.

B. Implicit Differentiable Adaptive Weighting (Bi-level Optimalisatie)

De RVL-loss (hierboven) zorgt voor conservatisme (value-awareness), maar negeert dynamica-bewustzijn (dynamics-awareness). Als het model alleen op waarde wordt geoptimaliseerd, kan het de echte dynamica van de omgeving verwaarlozen, wat leidt tot cumulatieve fouten tijdens multi-step rollouts.

Om dit op te lossen, introduceert ROMI een bi-level optimalisatie framework:

Binnenste niveau (Inner Level): Optimaliseert het dynamisch model ( $\psi$ ) via Weighted Supervised Learning (WSL). Een adaptief wegingsnetwerk ( $w_\nu$ ) wijst een gewicht toe aan elke trainingsstap $(s, a, s')$ om de reconstructie van de echte dynamica te verbeteren.
Buitenste niveau (Outer Level): Optimaliseert het wegingsnetwerk ( $\nu$ ) door de RVL-loss te minimaliseren. Dit gebeurt via impliciete differentiatie, waarbij de gradient van de RVL-loss wordt berekend met betrekking tot de gewichten, rekening houdend met de update van het binnenste niveau.
Doel: Dit zorgt ervoor dat het model dynamisch accuraat blijft (voor goede generalisatie) terwijl het tegelijkertijd conservatief blijft (voor veiligheid).

3. Belangrijkste Bijdragen

Analyse van RAMBO: Empirisch bewijs dat RAMBO instabiel is en gevoelig voor hyperparameters, wat leidt tot gradiënt-explosie en training collapse.
Nieuwe Loss-functie: Een robuuste value-aware loss die conservatisme reguleert via de schaal van een onzekerheidsset ( $\xi$ ) in plaats van een gevoelige Lagrange-multiplicator.
Bi-level Optimalisatie: Een innovatief schema met impliciete differentiatie dat dynamica- en waarde-bewustzijn combineert, wat essentieel is voor OOD-generalisatie.
Theoretische garanties: Bewijzen dat de geleerde Q-waarden begrensd blijven en dat het bi-level framework convergeert met een snelheid van $O(1/\sqrt{K})$ .

4. Resultaten

ROMI werd geëvalueerd op twee populaire benchmarks: D4RL (MuJoCo en Antmaze) en NeoRL.

D4RL MuJoCo: ROMI presteert significant beter dan RAMBO op 11 van de 12 datasets. Het behaalde een totaalscore van 953.5, wat 18,6% hoger is dan RAMBO. ROMI overtreft ook state-of-the-art methoden zoals MOBILE en Count-MORL op de meeste datasets.
D4RL Antmaze: Op deze uitdagende, spaarzaam beloonde taken behaalde ROMI een totaalsuccespercentage van 186,5, hoger dan MOBILE (173,4) en alle andere baselines.
NeoRL: ROMI overtrof alle baselines (zowel model-vrij als model-based) op 6 van de 9 datasets en behaalde de hoogste totaalscore.
Ablatie Studies:
- Het verwijderen van de adaptieve weging (alleen RVL) leidde tot hogere voorspellingsfouten en slechtere prestaties, wat aantoont dat dynamica-bewustzijn cruciaal is.
- ROMI toonde aan dat het stabiel blijft en geen gradiënt-explosie ondergaat zelfs bij grote waarden van $\xi$ (tot 10), terwijl RAMBO bij kleine $\lambda$ -veranderingen instort.

5. Significatie

Dit paper is significant omdat het een praktische en stabiele oplossing biedt voor het fundamentele probleem van model-exploitatie in offline RL.

Stabiliteit: Het lost het probleem van gradiënt-explosie op dat RAMBO beperkte, waardoor robuustere training mogelijk is.
Controleerbaarheid: Het biedt een intuïtieve manier om conservatisme te regelen via de onzekerheidsset-schaal, in plaats van via een onbetrouwbare trade-off coefficient.
Algemene Toepasbaarheid: Door het combineren van waarde- en dynamica-bewustzijn via bi-level optimalisatie, bereikt ROMI superieure generalisatie in onbekende gebieden, wat essentieel is voor het veilig toepassen van RL in de echte wereld.

De code is beschikbaar gesteld, wat de reproduceerbaarheid en verdere ontwikkeling van deze methode faciliteert.