SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space
SPAARS es un marco de aprendizaje curricular para el aprendizaje por refuerzo offline-a-online que mejora la seguridad y la eficiencia de las muestras al explorar inicialmente en un espacio latente de baja dimensión y luego transferir el control al espacio de acciones crudo, superando así las limitaciones de rendimiento de los métodos basados en decodificadores.