Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization
Questo lavoro propone un algoritmo attore-critico naturale primale-duale per processi decisionali di Markov vincolati a orizzonte infinito con politiche generalizzate e critici neurali, dimostrando la convergenza globale e fornendo le prime garanzie teoriche di violazione cumulativa dei vincoli in questo contesto.