PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models
O artigo apresenta o PCPO, um novo framework de otimização de política que resolve a instabilidade no treinamento de modelos de geração de imagem ao impor uma atribuição de crédito proporcional entre os timesteps, resultando em convergência acelerada e qualidade de imagem superior ao mitigar o colapso do modelo.