Seeing What Matters: Visual Preference Policy Optimization for Visual Generation
El artículo presenta ViPO, una variante de la Optimización de Política de Preferencia Visual que mejora el entrenamiento de modelos generativos al transformar las recompensas escalares en mapas de ventaja a nivel de píxel, permitiendo así una alineación más precisa con las preferencias humanas y una corrección efectiva de artefactos locales en imágenes y videos.