A Diffusion Analysis of Policy Gradient for Stochastic Bandits
Este artículo estudia una aproximación por difusión de tiempo continuo del gradiente de política para banditos estocásticos, demostrando que con una tasa de aprendizaje adecuada se logra un arrepentimiento logarítmico, mientras que se construye un caso donde una tasa inadecuada conduce a un arrepentimiento lineal.