A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning
Dit paper introduceert LOOP, een nieuwe versterkingsleermethode voor het fijnafstemmen van tekst-naar-beeld diffusiemodellen die de steekproefefficiëntie en stabiliteit van PPO combineert met de variansiereductietechnieken van REINFORCE om een betere balans tussen efficiëntie en prestaties te bereiken.