A Diffusion Analysis of Policy Gradient for Stochastic Bandits
Diese Arbeit analysiert eine Diffusionsapproximation des Policy-Gradient-Verfahrens für stochastische Banditen, indem sie zeigt, dass bei einer Lernrate von ein logarithmisches Regret von erreicht wird, während für bestimmte Instanzen mit logarithmisch vielen Armen eine lineare Lernrate erforderlich ist, um lineares Regret zu vermeiden.