Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics
Die vorgestellte Arbeit schlägt ein zweistufiges Reward-Curriculum vor, das aufgabenbezogene Ziele von Verhaltensaspekten entkoppelt, um das Training von Robotern in der Deep Reinforcement Learning zu stabilisieren und effizienter zu gestalten, indem zunächst eine vereinfachte Belohnungsfunktion für die Exploration genutzt wird, bevor zusätzliche Verhaltenskriterien wie Energieeffizienz eingeführt werden.