Diffusion Policy through Conditional Proximal Policy Optimization
Die Arbeit stellt eine effiziente Methode vor, die Diffusionsrichtlinien durch die Ausrichtung der Policy-Iteration auf den Diffusionsprozess in ein on-policy Reinforcement-Learning-Framework integriert, wodurch die Berechnung der Log-Likelihood vereinfacht und die Leistung in verschiedenen Robotik- und Simulationsumgebungen verbessert wird.