Aligning Few-Step Diffusion Models with Dense Reward Difference Learning
Este artículo presenta SDPO, un nuevo marco de aprendizaje por refuerzo que alinea modelos de difusión de pocos pasos con objetivos específicos mediante un muestreo de trayectorias de doble estado y un aprendizaje de diferencias de recompensa densas para lograr actualizaciones de política más frecuentes y granulares.