EchoFoley: Event-Centric Hierarchical Control for Video Grounded Creative Sound Generation
Pour surmonter les limitations clés des modèles existants de génération de sons à partir de vidéos et de textes, l'article introduit EchoFoley, une nouvelle tâche centrée sur les événements avec un contrôle hiérarchique, soutenue par le benchmark EchoFoley-6k et le framework EchoVidia, ce qui améliore significativement la contrôlabilité et la qualité perceptuelle de la génération de sons ancrés dans la vidéo.