Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases
Este trabajo aborda el problema de la sobreoptimización de recompensas en la alineación de modelos de difusión proponiendo TDPO-R, un algoritmo que mitiga este fenómeno al explotar el sesgo inductivo temporal inherente y regularizar el sesgo de primacía mediante el reinicio de neuronas activas en el modelo crítico.