V2A-DPO: Omni-Preference Optimization for Video-to-Audio Generation
Ce papier présente V2A-DPO, un cadre d'optimisation directe des préférences innovant conçu pour aligner les modèles de génération vidéo-vers-audio sur les préférences humaines grâce à un système de notation AudioScore, une pipeline automatisée de données de préférence et une stratégie d'apprentissage par curriculum, surpassant ainsi les méthodes existantes sur le jeu de données VGGSound.