Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows
O artigo apresenta o FoleyFlow, um modelo que gera áudio sincronizado com vídeos utilizando alinhamento multimodal baseado em mascaramento e um fluxo condicional dinâmico para garantir coerência semântica e rítmica, superando os métodos existentes em benchmarks padrão.