Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins
Cet article propose l'algorithme FlexDOME, la première méthode à garantir théoriquement une violation de contrainte forte quasi-constante, un regret sous-linéaire et une convergence à la dernière itération pour l'apprentissage par renforcement en ligne dans des processus de décision markoviens contraints, grâce à une optimisation primal-duale intégrant des marges de sécurité décroissantes.