Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts
Este artículo presenta DROCO, un algoritmo de aprendizaje por refuerzo offline cruzado que garantiza la robustez tanto en entrenamiento como en prueba frente a cambios en la dinámica mediante un nuevo operador de Bellman robusto, penalización de valor dinámica y pérdida de Huber.