A Diffusion Analysis of Policy Gradient for Stochastic Bandits
Questo studio analizza un'approssimazione di diffusione in tempo continuo per i gradienti di politica nei banditi stocastici, dimostrando che un tasso di apprendimento adeguato garantisce un rimpianto logaritmico, mentre un tasso troppo elevato porta a un rimpianto lineare in certi casi.