MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics
この論文は、従来の MORL アルゴリズムが抱える大規模並列化の課題を解決し、GPU ネイティブの高速アルゴリズム「MORLAX」と GPU 加速環境「MO-Playground」を導入することで、複雑な多目的ロボット制御タスクにおけるパレート最適方策の探索を大幅に高速化し、その有効性を BRUCE 型ヒューマノイドロボットの歩行制御などを通じて実証したものである。