VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
Ce papier présente VSSFlow, un cadre unifié basé sur l'appariement de flux et un mécanisme d'agrégation de conditions désengagé qui résout simultanément et avec une performance supérieure les tâches de génération de sons et de parole à partir de vidéos, démontrant ainsi le potentiel des modèles génératifs unifiés.