Integrating LTL Constraints into PPO for Safe Reinforcement Learning
Questo articolo presenta PPO-LTL, un framework che integra vincoli di Logica Temporale Lineare (LTL) nell'algoritmo Proximal Policy Optimization per garantire l'apprendimento per rinforzo sicuro, traducendo le violazioni in segnali di penalità tramite automi di Büchi e ottimizzando la politica con uno schema Lagrangiano.