Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins
Il paper propone l'algoritmo FlexDOME, il primo metodo a garantire teoricamente una violazione dei vincoli forte quasi costante, un regret sublineare e la convergenza all'ultima iterazione nell'apprendimento per rinforzo online sicuro per processi decisionali di Markov vincolati, ottenuti attraverso margini di sicurezza decrescenti e regolarizzazione in un quadro primal-dual.