MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics
Ce papier présente MORLAX, un algorithme d'apprentissage par renforcement multi-objectif natif pour GPU, et MO-Playground, un environnement d'entraînement accéléré par GPU, qui permettent ensemble d'approximer des ensembles de Pareto pour des problèmes robotiques complexes avec une accélération de 25 à 270 fois par rapport aux approches CPU traditionnelles.