SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space
Il paper introduce SPAARS, un framework di apprendimento curricolare per l'allineamento delle politiche RL che combina un'esplorazione sicura nello spazio latente con un'ottimizzazione diretta nello spazio delle azioni, superando i limiti di prestazione dei metodi basati su CVAE e dimostrando miglioramenti significativi nell'efficienza del campione e nei risultati su diversi benchmark robotici.