Distributional value gradients for stochastic environments
Cet article propose une méthode appelée « Distributional Sobolev Training » qui étend l'apprentissage de la valeur distributionnelle aux espaces d'état-action continus en modélisant simultanément les distributions des valeurs et de leurs gradients via un modèle du monde conditionnel, afin de surmonter les limitations des approches existantes dans les environnements stochastiques tout en garantissant théoriquement la convergence de l'opérateur de Bellman augmenté.