Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion
Este trabajo presenta un marco de aprendizaje por refuerzo multiobjetivo condicionado por preferencias que permite a un robot humanoide equilibrar dinámicamente el seguimiento de comandos de navegación y la compliancia ante fuerzas externas mediante un único policy omnidireccional, validado exitosamente tanto en simulación como en hardware real.