Robustness to Model Approximation, Model Learning From Data, and Sample Complexity in Wasserstein Regular MDPs
Este artigo analisa a robustez de políticas ótimas em processos de decisão de Markov sob aproximação de modelo baseada na distância de Wasserstein, estabelecendo limites de perda de desempenho e complexidade de amostragem que são particularmente úteis para aprendizado empírico de modelos e distribuições de ruído onde critérios de convergência mais fortes não se aplicam.