A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning
Este trabalho propõe o método LOOP (Leave-One-Out PPO), uma nova abordagem de aprendizado por reforço para o ajuste fino de modelos de difusão texto-para-imagem que combina técnicas de redução de variância do REINFORCE com a robustez e eficiência amostral do PPO, superando as limitações de ambos ao alcançar um melhor equilíbrio entre eficiência de amostragem e desempenho final.