Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action
Este artículo demuestra que, para una clase de procesos de decisión de Markov de horizonte finito con espacios generales de estado y acción, el paisaje de optimización de políticas satisface la condición PŁK, lo que garantiza la convergencia global de los métodos de gradiente de política a la política óptima con tasas no asintóticas y proporciona las primeras garantías de complejidad de muestra para sistemas de inventario y balances de efectivo estocásticos.