SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space
Die Arbeit stellt SPAARS vor, ein Curriculum-Learning-Framework für das Offline-zu-Online-Reinforcement-Learning, das die Exploration zunächst sicher in einem latenten Raum einschränkt und dann nahtlos in den rohen Aktionsraum übergeht, um die durch Decoder-Rekonstruktionsverluste bedingte Leistungsgrenze zu überwinden und gleichzeitig die Sample-Effizienz sowie die Stabilität zu steigern.