Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer
Este artigo apresenta o S2S-ZEST, um novo framework de transferência de estilo emocional fala-para-fala que, operando sem texto e sem dados paralelos, consegue transferir características emocionais de uma referência para uma fala fonte preservando a identidade do falante e o conteúdo semântico, demonstrando desempenho superior a métodos anteriores e aplicabilidade em tarefas de reconhecimento de emoções.