Seeing What Matters: Visual Preference Policy Optimization for Visual Generation
Il paper introduce ViPO, una variante dell'ottimizzazione della politica di gruppo relativa (GRPO) che trasforma i feedback a scalare in mappe di vantaggio strutturate a livello di pixel per allineare meglio i modelli generativi visivi alle preferenze umane, correggendo efficacemente gli artefatti localizzati e migliorando le prestazioni sia su immagini che su video.