SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space
O artigo apresenta o SPAARS, um framework de aprendizado por reforço offline-to-online que utiliza uma exploração curricular segura no espaço latente para superar as limitações de desempenho dos métodos baseados em CVAE, transferindo o controle para o espaço de ações bruto e alcançando maior eficiência de amostragem e retornos superiores em tarefas de robótica.