Diffusion Policy through Conditional Proximal Policy Optimization
Il paper propone un metodo efficiente per addestrare politiche di diffusione in contesti di apprendimento per rinforzo on-policy, superando le sfide computazionali del calcolo della verosimiglianza attraverso un nuovo allineamento tra iterazione della politica e processo di diffusione, ottenendo prestazioni superiori e comportamenti multimodali su diversi benchmark.