SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space
이 논문은 오프라인 데이터의 행동 지원 범위 내에서 안전한 온라인 탐색을 보장하면서도 디코더의 재구성 손실로 인한 성능 한계를 우회하기 위해, 저차원 잠재 공간 탐색에서 원시 행동 공간 활용으로 점진적으로 전환하는 커리큘럼 학습 프레임워크인 SPAARS 를 제안하고 그 유효성을 입증합니다.