A Diffusion Analysis of Policy Gradient for Stochastic Bandits
Cet article étudie une approximation par diffusion en temps continu des algorithmes de gradient de politique pour les bandits stochastiques à bras, démontrant que des taux de regret optimaux sont atteints avec un taux d'apprentissage spécifique, tout en établissant que des taux linéaires inévitables surviennent sans cette condition même pour un nombre logarithmique de bras.