MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics
Este artículo presenta MORLAX y MO-Playground, un algoritmo de aprendizaje por refuerzo multiobjetivo nativo de GPU y un entorno de simulación acelerado que permiten aproximar conjuntos de Pareto en minutos con una aceleración de 25 a 270 veces respecto a los enfoques tradicionales basados en CPU, facilitando así la resolución de problemas complejos de robótica multiobjetivo como la locomoción de un robot humanoide.