Global Convergence of Average Reward Constrained MDPs with Neural Critic and General Policy Parameterization
Cet article propose un algorithme acteur-critic primal-dual intégrant des réseaux de neurones profonds pour les processus de décision markoviens contraints, établissant pour la première fois des garanties de convergence globale et de violation de contraintes dans un cadre de politiques générales et d'approximation non linéaire.