Diffusion Policy through Conditional Proximal Policy Optimization
Cet article propose une méthode novatrice et efficace, nommée Diffusion Policy through Conditional Proximal Policy Optimization, qui permet d'entraîner des politiques de diffusion en apprentissage par renforcement on-policy en alignant l'itération de la politique sur le processus de diffusion, surmontant ainsi les défis de calcul de vraisemblance et permettant une génération d'actions multimodales performante.