A Diffusion Analysis of Policy Gradient for Stochastic Bandits
Dit artikel analyseert een continu-tijd diffusi benadering van policy gradient voor stochastische bandieten en bewijst dat de spijt afhankelijk is van de leersnelheid, waarbij een optimale leersnelheid nodig is om lineaire spijt te voorkomen.