Wasserstein Proximal Policy Gradient
Cet article présente la méthode WPPG, un algorithme de gradient de politique basé sur la géométrie de Wasserstein qui évite le calcul de la densité du logarithme de la politique grâce à une approche par fractionnement d'opérateurs, garantissant ainsi une convergence linéaire globale et des performances compétitives sur des tâches de contrôle continu.