Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren lopen. In de echte wereld is dat lastig en duur: je robot valt vaak, breekt onderdelen en het kost veel tijd om hem te leren. Maar in een computersimulatie (een virtuele wereld) kun je duizenden robots tegelijk laten vallen en opstaan zonder dat er iets kapot gaat.

Het probleem is: wat in de simulatie werkt, werkt niet altijd in de echte wereld. De robot in de simulatie heeft misschien vier poten, terwijl de echte robot er drie heeft. Of de simulatie heeft een andere manier om "beloning" te geven dan de echte wereld.

Dit artikel introduceert een slimme nieuwe methode, genaamd QAvatar, die deze kloof overbrugt. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vreemde Taal" en de "Onbetrouwbare Gids"

Stel je voor dat je een ervaren gids hebt (de bron uit de simulatie) die een gebied kent, en je wilt een nieuwe gids opleiden voor een ander, vergelijkbaar gebied (het doel, de echte wereld).

Er zijn twee grote struikelblokken:

Verschillende "lichamen": De bron-gids kent een gebied met heuvels en bomen, maar de doel-gids loopt door een stad met straten en gebouwen. Ze spreken een andere "taal" over hoe de wereld eruit ziet. Je kunt de instructies van de bron niet zomaar overnemen; je moet ze vertalen.
Onzekerheid: Soms is de bron-gids geweldig, maar soms is hij slecht of werkt hij alleen maar goed in de simulatie en niet in de echte wereld. Als je blindelings naar een slechte gids luistert, leer je de verkeerde dingen (dit heet "negatieve overdracht").

2. De Oplossing: QAvatar (De "Avatar"-methode)

De auteurs noemen hun methode QAvatar, naar de film Avatar. In die film sturen mensen hun bewustzijn naar een genetisch aangepast lichaam om zich aan te passen aan een vreemde planeet.

QAvatar doet iets soortgelijks:

Het neemt het "bewustzijn" (de kennis) van de bron-robot en probeert dit te vertalen naar het lichaam van de doel-robot.
Maar het is niet blind. Het heeft een slimme weegschaal (een hybride criticus).

3. Hoe werkt de "Slimme Weegschaal"?

Dit is het meest creatieve deel van het verhaal. Stel je voor dat je twee experts hebt die je helpen een beslissing te nemen:

Expert A (De Bron): Een ervaren gids uit de simulatie.
Expert B (De Doel): Een beginner die net in de echte wereld begint.

QAvatar luistert naar beide experts, maar de mate waarin hij luistert, verandert continu:

Als de simulatie-gids (Expert A) het goed doet: De weegschaal draait naar 100% naar hem toe. De robot leert razendsnel van de simulatie.
Als de simulatie-gids het fout doet: De weegschaal merkt dat de instructies van de gids niet kloppen met de realiteit. Dan draait hij de weegschaal naar 0% en laat hij de robot alleen luisteren naar de eigen ervaringen in de echte wereld.

Dit voorkomt dat de robot "vergiftigd" wordt door slechte simulatie-instructies. Het is alsof je een leerling een boek laat lezen, maar als het boek verouderde informatie bevat, laat je de leerling gewoon zelf experimenteren in plaats van het boek te volgen.

4. De "Bellman-Consistentie": De Realiteitscheck

Hoe weet het systeem of de gids uit de simulatie betrouwbaar is? Ze gebruiken een wiskundige check, die ze Bellman-consistentie noemen.

In het kort: Ze kijken of de beloningen die de simulatie-gids voorspelt, logisch zijn in de echte wereld.

Als de gids zegt: "Als je hier rechtsaf slaat, krijg je 10 punten," en in de echte wereld krijg je inderdaad 10 punten, dan is de gids consistent.
Als de gids 10 punten belooft, maar je krijgt 0, dan is de gids inconsistent.

QAvatar gebruikt deze check om de "weegschaal" automatisch te regelen. Geen ingewikkelde knoppen om te draaien; het systeem past zichzelf aan op basis van wat er gebeurt.

5. Waarom is dit belangrijk?

Vroeger moesten robotontwikkelaars kiezen: of je leert je robot in de simulatie (snel, maar misschien niet bruikbaar in de realiteit) of je leert hem in de echte wereld (veilig, maar extreem traag en duur).

Met QAvatar kun je het beste van beide werelden hebben:

Je start met de snelle kennis uit de simulatie.
Maar het systeem is slim genoeg om te zeggen: "Hé, dit werkt hier niet," en stopt met het gebruiken van die kennis.
Het resultaat: Robots leren veel sneller nieuwe taken (zoals lopen of een deur openen) zonder dat ze duizenden keren hoeven te vallen in de echte wereld.

Kortom: QAvatar is als een slimme tolk die niet alleen vertaalt, maar ook controleert of de vertaling klopt. Als de vertaling goed is, helpt hij je. Als de vertaling fout is, laat hij je gewoon zelf praten. Zo leer je sneller en maak je minder fouten.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics", gepresenteerd op ICLR 2026.

1. Het Probleem: Cross-Domain Reinforcement Learning (CDRL)

Cross-Domain Reinforcement Learning (CDRL) heeft als doel de data-efficiëntie van RL te verbeteren door kennis over te dragen van een bron-domein (bijv. een simulator) naar een doel-domein (bijv. de echte wereld of een andere simulatie). Hoewel veel bestaande methoden succesvol zijn binnen domeinen met identieke staten en acties, staan twee fundamentele uitdagingen de bredere toepassing in de weg:

Verschillende staten en acties: Bron- en doel-domeinen kunnen fundamenteel verschillende representaties hebben (bijv. robots met een ander aantal ledematen of verschillende sensoren). Dit maakt directe overdracht van beleidsmodellen onmogelijk en vereist complexe inter-domein mapping.
Onbekende transferbaarheid: Het is van tevoren onbekend of een bronmodel bruikbaar is voor het doel-domein. Bestaande methoden gaan vaak ten onrechte uit van een hoge gelijkenis, wat kan leiden tot negatieve transfer: het gebruik van een slecht bronmodel verslechtert de prestaties in het doel-domein in plaats van ze te verbeteren.

De kernvraag die dit paper beantwoordt is: Hoe kan men effectieve transfer bereiken in CDRL met verschillende staten- en actieruimtes, zonder vooraf te weten of het bronmodel transferbaar is?

2. Methodologie: QAvatar

De auteurs stellen QAvatar voor, een nieuw CDRL-framework dat twee kernconcepten combineert: Cross-Domain Bellman Consistentie en een Hybride Critic.

A. Cross-Domain Bellman Consistentie

In plaats van te vertrouwen op onbewezen dynamische overeenkomsten (zoals bij cycle-consistency), introduceert het paper een maatstaf voor transferbaarheid gebaseerd op de Bellman-vergelijking.

Definitie: Een bron-critic $Q_{src}$ wordt "Bellman-consistent" als er een paar mapping-functies ( $\phi$ voor staten, $\psi$ voor acties) bestaat die de Bellman-fout van de bron-kennis in het doel-domein minimaliseren.
Functie: Deze fout ( $\epsilon_{cd}$ ) dient als een dynamische indicator voor de kwaliteit van de transfer. Als de fout hoog is, is de bronkennis onbruikbaar; is de fout laag, dan is de kennis waardevol.

B. De QAvatar Algorithm

Het algoritme werkt als volgt:

Inter-Domain Mapping: Het leert mapping-functies $\phi: S_{tar} \to S_{src}$ en $\psi: A_{tar} \to A_{src}$ door de "Cross-Domain Bellman Loss" te minimaliseren. Dit zorgt ervoor dat de bron-Q-waarden zo goed mogelijk overeenkomen met de overgangen in het doel-domein.
Hybride Critic: In plaats van alleen te vertrouwen op de geleerde doel-Q-functie ( $Q_{tar}$ ) of alleen op de bron-Q-functie ( $Q_{src}$ ), gebruikt QAvatar een gewogen combinatie:
$f^{(t)}(s, a) = (1 - \alpha^{(t)}) Q_{tar}^{(t)}(s, a) + \alpha^{(t)} Q_{src}(\phi^{(t)}(s), \psi^{(t)}(a))$
Adaptieve Weegfactor ( $\alpha$ ): De parameter $\alpha^{(t)}$ $α^{(t)}$ wordt dynamisch en zonder hyperparameters bepaald op basis van de relatieve grootte van de Bellman-fouten:
- Als de bron-fout ( $\epsilon_{cd}$ ) lager is dan de doel-fout ( $\epsilon_{td}$ ), wordt $\alpha$ hoog (meer vertrouwen in de bron).
- Als de bron-fout hoog is (negatieve transfer), daalt $\alpha$ naar 0, waardoor het systeem terugvalt op het leren van het doel-domein vanaf nul.
- Formule: $\alpha^{(t)} = \frac{\|\epsilon_{td}\|}{\|\epsilon_{cd}\| + \|\epsilon_{td}\|}$ .

C. Praktische Implementatie

Voor diepe RL-taken wordt QAvatar geïntegreerd met Soft Actor-Critic (SAC):

De policy-update gebruikt de hybride Q-functie.
Voor de mapping-functies wordt een Normalizing Flow model gebruikt om te garanderen dat de gegenereerde staten en acties binnen de geldige bereik van het doel-domein blijven (een oplossing voor het probleem van bounded action spaces).

3. Belangrijkste Bijdragen

Theoretisch Kader: Het introduceren van "Cross-Domain Bellman Consistency" als een theoretische maatstaf voor transferbaarheid, met bijbehorende convergentiebewijzen voor een tabulaire versie van het algoritme.
Robuust Algoritme (QAvatar): Het ontwikkelen van het eerste CDRL-framework dat gegarandeerd goede prestaties levert, ongeacht de kwaliteit van het bronmodel of de gelijkenis tussen domeinen. Het vermijdt negatieve transfer door de hybride critic en de adaptieve weegfactor.
Praktische Toepasbaarheid: Een implementatie die werkt met ongespaarde staten/acties (verschillende dimensies) en gebruikmaakt van bestaande RL-methoden (SAC) en normalizing flows voor mapping.

4. Resultaten

De auteurs testen QAvatar op diverse benchmarks, waaronder locomotie (MuJoCo: HalfCheetah, Ant), robotarm-manipulatie (Robosuite: deur openen, tafel wissen) en navigatie (Safety-Gym).

Data-efficiëntie: QAvatar bereikt de prestatiedrempel aanzienlijk sneller dan standaard SAC (leren vanaf nul) en andere CDRL-benchmarks (zoals CAT, CMD, PAR). In sommige gevallen is QAvatar 44% sneller dan SAC.
Robuustheid tegen Negatieve Transfer:
- In scenario's waar het bronmodel juist het tegenovergestelde doel heeft (adversariaal), past QAvatar $\alpha$ automatisch aan naar 0, waardoor het algoritme niet vastloopt en wel convergeren.
- Bij een lage kwaliteit bronmodel (slechte prestaties in bron-domein) reduceert QAvatar de invloed van de bronkennis, terwijl het toch profiteert van de structuur.
Vergelijking met State-of-the-Art: QAvatar presteert consistent beter dan methoden die vertrouwen op cycle-consistency (zoals CMD) of directe parameter-overdracht (zoals CAT), vooral in situaties met grote verschillen in domein-structuur.
Generalisatie: Het werkt zelfs goed bij transfer tussen volledig verschillende omgevingen (bijv. van een Hopper-robot naar een robotarm) en in niet-stationaire omgevingen met ruis.

5. Betekenis en Conclusie

Dit paper is een belangrijke stap in het veld van Transfer Learning voor Reinforcement Learning. Het lost het dilemma op tussen het benutten van bronkennis voor snelheid en het vermijden van negatieve transfer.

Innovatie: Door Bellman-consistentie te gebruiken als een "waarheidsindicator" voor transfer, biedt het een theoretisch onderbouwde manier om te beslissen wanneer en hoeveel bronkennis te gebruiken.
Toepassing: De methode is direct toepasbaar op complexe real-world problemen zoals sim-to-real transfer, waar staten en acties vaak verschillen tussen simulatie en realiteit.
Beperking: De trainingstijd is ongeveer twee keer zo lang als standaard SAC vanwege de extra berekeningen voor mapping en flow-modellen, maar de winst in data-efficiëntie (minder interacties met de omgeving) weegt hier vaak zwaarder, vooral bij dure fysieke systemen.

Kortom, QAvatar biedt een betrouwbare, hyperparameter-vrije oplossing voor cross-domain RL die zowel positieve als negatieve transfer effectief beheerst.