SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space
SPAARS is een curriculumleerframework voor offline-naar-online versterkingsleer dat veilig online verkenning eerst beperkt tot een laagdimensionale latente ruimte om vervolgens naadloos over te schakelen naar de ruwe actieruimte, waardoor de prestatieplafond van decoder-bottlenecks wordt doorbroken en aanzienlijk betere sample-efficiëntie en prestaties worden bereikt.