Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts
Il paper presenta DROCO, un nuovo algoritmo di apprendimento per rinforzo offline cross-domain che garantisce robustezza sia durante l'addestramento che al test, affrontando gli spostamenti dinamici attraverso un innovativo operatore di Bellman robusto e tecniche di penalizzazione del valore.