A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning
Cet article propose LOOP, une nouvelle méthode d'apprentissage par renforcement pour le fine-tuning des modèles de diffusion texte-à-image, qui combine les techniques de réduction de variance de REINFORCE avec la robustesse de PPO afin d'optimiser le compromis entre efficacité des échantillons et performance finale.