Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren een doolhof te doorlopen of een blokje op te pakken, maar je mag hem geen specifieke instructies geven over welke knoppen hij moet indrukken of waar hij precies naartoe moet bewegen. Je kunt alleen zeggen: "Ga naar dat puntje" of "Pak dat blokje". Dit noemen we Goal-Conditioned Reinforcement Learning (GCRL).

Het probleem is dat robots vaak vastlopen in de leerfase. Ze weten niet hoe ze van A naar B moeten komen als ze nog nooit daar zijn geweest. De oude methoden gebruiken vaak een "beloningssysteem" (zoals een snoepje voor goed gedrag), maar dat is lastig in te stellen.

De auteurs van dit paper (uit ICLR 2026) hebben een nieuwe, slimme manier bedacht om dit op te lossen. Ze noemen hun methode Eik-HiQRL. Laten we het uitleggen met een paar creatieve vergelijkingen.

1. Het oude probleem: De "Stap-voor-stap" kaart

Stel je voor dat je een robot leert een doolhof te lopen. De oude methode (QRL) werkt als iemand die probeert een kaart te tekenen door alleen te kijken naar de stappen die hij al heeft gezet.

Hij kijkt: "Ik stond hier, ik stapte naar daar, dat kostte 1 seconde."
Hij tekent een lijntje.
Het probleem: Als de robot een nieuw pad moet vinden dat hij nog nooit heeft gelopen, heeft hij geen kaartje voor dat stukje. Hij raakt de weg kwijt. Hij is te afhankelijk van de "sporen" die hij al heeft achtergelaten.

2. De nieuwe aanpak: De "Eikonaal" (De bergtop)

De auteurs zeggen: "Waarom wachten tot we stappen hebben gezet? Laten we een wiskundige wet gebruiken die de hele ruimte beschrijft, alsof het een berglandschap is."

Ze gebruiken een vergelijking uit de natuurkunde (de Eikonal-vergelijking).

De Metafoor: Stel je voor dat elke plek in het doolhof een punt op een berg is. De top van de berg is het doel (de uitgang). Hoe verder je van de top bent, hoe hoger je op de berg staat.
De regel is simpel: Je moet altijd 1 meter omhoog gaan voor elke meter die je van de top af bent. Het is alsof de helling van de berg overal precies hetzelfde is.
Het voordeel: De robot hoeft niet te wachten op een stap. Hij kan gewoon naar een willekeurig punt in het doolhof kijken en de helling van de berg berekenen. Hij "weet" direct welke kant op het doel ligt, zelfs als hij daar nog nooit is geweest. Dit noemen ze traject-vrij (je hebt geen reeks stappen nodig, alleen een startpunt en een doel).

3. Het probleem met de berg: De "Kliffen"

Maar wacht, er is een addertje onder het gras.
In de echte wereld (zoals bij een robotarm die blokken pakt) is de "berg" niet altijd glad. Soms zijn er kliffen of schokken.

Als een robotarm een blok vastpakt, verandert de fysica plotseling. De "helling" van de berg is daar niet meer glad, maar scherp en onvoorspelbaar.
De nieuwe methode (Eik-QRL) werkt fantastisch op gladde bergpaden (zoals een puntje dat door een doolhof beweegt), maar faalt als er te veel "kliffen" zijn (zoals bij het vastpakken van objecten).

4. De oplossing: De "Hoofd- en Onder-robot" (Hiërarchie)

Om dit op te lossen, hebben ze een hiërarchisch systeem bedacht (Eik-HiQRL). Dit is als het hebben van een Strateg en een Uitvoerder.

De Strateg (Hoog niveau): Deze robot kijkt naar de grote lijn. Hij werkt in een "vereenvoudigde wereld" waar de berg glad is. Hij denkt: "Ik moet naar die hoek van de kamer, en dan naar die andere." Hij maakt een grove routeplanning. Hij gebruikt de slimme wiskundige berg-wet om de grote lijnen te tekenen.
De Uitvoerder (Laag niveau): Deze robot doet het zware werk. Hij kijkt naar de details: "Hoe pak ik dit blokje precies vast? Hoe vermijd ik dat ik tegen de muur sla?" Hij gebruikt een traditionele, stap-voor-stap methode om de kleine bewegingen te maken.

De magie: De Strateg geeft de Uitvoerder tussen-doelen (subdoelen). De Uitvoerder hoeft niet de hele weg te plannen, alleen het stukje tot aan het volgende subdoel. Dit maakt het leren veel sneller en stabieler, zelfs in moeilijke situaties met "kliffen".

Samenvatting in één zin

De auteurs hebben een slimme combinatie bedacht: een wiskundige "bergkaart" die robots helpt om snel te plannen in open ruimtes, gekoppeld aan een twee-laags team (een strateeg en een uitvoerder) om de moeilijkheden van de echte wereld (zoals het vastpakken van objecten) te overwinnen.

Resultaat:

In simpele doolhoven (waar de "berg" glad is) werkt het super snel en zonder dat de robot eerst rond moet lopen.
In complexe taken (zoals robotarmen) werkt het net zo goed als de beste bestaande methoden, maar met meer flexibiliteit.

Het is alsof je een robot leert niet alleen te lopen, maar ook te denken over de weg voordat hij zijn voet verplaatst.

Each language version is independently generated for its own context, not a direct translation.

Titel: Goal Reaching with Eikonal-Constrained Hierarchical Quasimetric Reinforcement Learning

Auteurs: Vittorio Giammarino en Ahmed H. Qureshi (Purdue University)
Conferentie: ICLR 2026

1. Het Probleem

Reinforcement Learning (RL) staat bekend om zijn succes in complexe taken, maar de afhankelijkheid van handmatig ontworpen beloningssystemen (reward engineering) blijft een grote beperking. Dit proces is tijdrovend, vatbaar voor "reward hacking" en beperkt de generalisatie van agents.

Goal-Conditioned RL (GCRL) lost dit deels op door taken te definiëren als het bereiken van een willekeurig doel ( $g$ ) in plaats van het maximaliseren van een handmatige beloning. Een fundamentele geometrische eigenschap van GCRL is dat de optimale goal-conditioned waardenfunctie $V^*(s, g)$ overeenkomt met de lengte van het kortst mogelijke pad van een staat $s$ naar een doel $g$ . Dit vormt van nature een quasimetric (een metriek die niet noodzakelijk symmetrisch is).

Bestaande methoden zoals Quasimetric RL (QRL) gebruiken deze eigenschap door de waardenfunctie te beperken tot quasimetric-mappingen. Echter, QRL leunt zwaar op discrete, traject-gebaseerde constraints (lokal consistentie via overgangen $(s, s')$ ). Dit heeft twee nadelen:

Het vereist volledige rollouts of overgangstuples, wat de toepasbaarheid in offline settings of bij schaarse data beperkt.
Het heeft moeite met generalisatie buiten de trainingsverdeling (out-of-distribution), vooral in complexe dynamische omgevingen of bij lange horizon-taken.

2. Methodologie

De auteurs introduceren een nieuwe aanpak die de discrete constraints van QRL vervangt door een continu-tijd formulering gebaseerd op partiële differentiaalvergelijkingen (PDE's).

A. Eikonal-Constrained QRL (Eik-QRL)

In plaats van lokale consistentie te forceren via discrete stappen, leiden de auteurs een constraint af uit de Eikonal PDE.

Theoretische Basis: Ze modelleren de dynamica als een unit-speed integrator ( $\dot{s} = a$ met $\|a\| \le 1$ ). Onder deze aanname voldoet de optimale waardefunctie aan de Eikonal-vergelijking: $\|\nabla_s d^*(s, g)\| = 1$ .
De Formulering: Het leerproces wordt een optimalisatieprobleem waarbij de globale relaties (maximaliseren van de afstand tussen verre staten) worden gecombineerd met een lokale constraint die de norm van de gradiënt van de waardenfunctie gelijkstelt aan 1:
$\|\nabla_s d_\theta(s, g)\| - 1 \approx 0$
Voordeel: Dit maakt het algoritme traject-vrij (trajectory-free). Het heeft alleen onafhankelijke en identiek verdeelde (i.i.d.) samples van staten en doelen nodig, geen volledige trajecten $(s, s')$ . Dit verbetert de generalisatie aanzienlijk en fungeert als een impliciete regularisator.

B. Beperkingen en Hiërarchische Uitbreiding (Eik-HiQRL)

De auteurs identificeren een theoretische beperking: de Eikonal-constraint vereist dat de dynamica isotroop is en de waardenfunctie lokaal Lipschitz-continu is. In complexe omgevingen (zoals robotmanipulatie met contactkrachten of hoge dimensies) worden deze aannames geschonden, wat leidt tot prestatieverlies.

Om dit op te lossen, introduceren ze Eik-HiQRL:

Hiërarchische Architectuur: Het probleem wordt opgesplitst in een hoog-niveau (high-level) en laag-niveau (low-level) controller.
- High-level: Werkt in een laag-dimensionale abstracte ruimte (bijv. posities van objecten). Hier worden de regulariteitsaannames van de Eikonal-PDE beter gehanteerd. Een quasimetric-model (IQE) leert de waardenfunctie in deze ruimte met de Eikonal-constraint.
- Low-level: Een standaard TD-gebaseerde controller (Time-Difference) probeert de subdoelen van het hoog-niveau te bereiken.
Synergie: De hiërarchie vermindert het signaal-ruisprobleem bij lange horizon-taken en omzeilt de moeilijkheid om quasimetrics direct in hoge dimensies te leren, terwijl het de voordelen van de PDE-regularisatie behoudt in de abstracte ruimte.

3. Belangrijkste Bijdragen

Eik-QRL: Een novel PDE-constrained formulering van Quasimetric RL. Het vervangt discrete traject-constraints door een continue Eikonal-constraint, wat leidt tot een traject-vrije methode met betere out-of-distribution generalisatie.
Eik-HiQRL: Een hiërarchisch algoritme dat de beperkingen van Eik-QRL in complexe dynamische omgevingen oplost door de PDE-constraints toe te passen in een gereduceerde abstracte ruimte, terwijl het de voordelen van hiërarchie benut.
Theoretische Garanties: De auteurs bewijzen dat onder bepaalde regulariteitsvoorwaarden (1-Lipschitz continuïteit) de Eikonal-constraint leidt tot een nauwkeurige herwinning van de optimale waardenfunctie.
Uitgebreide Experimenten: Een grondige evaluatie op offline GCRL-benchmarks (OGbench), inclusief navigatie, robotmanipulatie en complexe dynamische scenario's.

4. Resultaten

De experimenten zijn uitgevoerd op de OGbench suite (Offline Goal-Conditioned RL benchmarks) en omvatten diverse omgevingen zoals Pointmaze, Antmaze, Humanoidmaze, Antsoccer en manipulatie-taken (Cube, Scene).

Navigatie (Pointmaze & Antmaze):
- In ideale omgevingen (Pointmaze) presteren Eik-QRL en HJB-QRL (Hamilton-Jacobi-Bellman variant) beter dan standaard QRL, met name in het vermijden van botsingen.
- In complexe omgevingen (Antmaze) presteert Eik-HiQRL aanzienlijk beter dan alle baselines (inclusief HIQL, CRL en QRL). Het bereikt State-of-the-Art (SOTA) resultaten, vooral in "giant" en "stitch" datasets waar data-stitching nodig is.
- Eik-HiQRL toont statistisch significante verbeteringen in lange-horizon taken.
Robotmanipulatie & Complexe Dynamica:
- In omgevingen met contactkrachten en discontinuïteiten (Antsoccer, Cube, Scene) waar de Eikonal-aannames strikt niet gelden, presteert Eik-HiQRL vergelijkbaar met de beste baselines, maar niet met dezelfde grote winst als in navigatie. Dit bevestigt de theoretische analyse dat de methode gevoelig is voor schendingen van de Lipschitz-aannames, maar dat de hiërarchische structuur de schade beperkt.
Traject-vrij leren:
- Een experiment met alleen willekeurige staten en doelen (zonder trajecten) toont aan dat Eik-QRL succesvol kan leren, wat de potentie van de traject-vrije aard van de methode onderstreept.

5. Significantie en Conclusie

Dit paper biedt een fundamentele verschuiving in hoe quasimetric learning wordt toegepast in Reinforcement Learning:

Van Discreet naar Continuum: Het introduceert een brug tussen RL en fysica-informeerde neurale netwerken (PINNs) door PDE-constraints direct in het leerproces te integreren.
Generalisatie: De traject-vrije aard en de PDE-regularisatie verbeteren de robuustheid tegenover verdelingsverschuivingen (distributional shift), wat cruciaal is voor offline RL.
Praktische Toepasbaarheid: De hiërarchische aanpak (Eik-HiQRL) maakt de methode toepasbaar in realistische, complexe scenario's waar pure PDE-methoden zouden falen.

De auteurs concluderen dat hun werk een solide basis legt voor toekomstige ontwikkelingen in "PDE-informed RL", met name voor het ontwerpen van representaties die voldoen aan de geometrische eisen van deze methoden. Dit opent nieuwe wegen voor het toepassen van formele garanties in real-world RL-toepassingen.