A Diffusion Analysis of Policy Gradient for Stochastic Bandits
Este artigo analisa uma aproximação por difusão em tempo contínuo do gradiente de política para bandits estocásticos, provando que um aprendizado com taxa resulta em arrependimento logarítmico, enquanto demonstra que taxas maiores levam a arrependimento linear em certos cenários.