Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation
O artigo apresenta o Vevo2, um framework unificado e controlável para geração de voz falada e cantada que supera desafios como a escassez de dados anotados e permite controle flexível de prosódia, estilo e timbre por meio de dois tokenizadores de áudio inovadores e estratégias de aprendizado conjuntas.