VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning
O artigo apresenta o VSSFlow, um framework unificado baseado em fluxo que, através de um mecanismo de agregação de condições disjuntas e aprendizado conjunto, supera os métodos específicos de domínio ao gerar simultaneamente som e fala a partir de vídeos.