Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer
Este artículo presenta S2S-ZEST, un marco de transferencia de estilo emocional voz-a-voz sin texto y no paralelo que logra imitar la emoción de una referencia preservando el contenido y la identidad del hablante de la fuente mediante un pipeline de análisis-síntesis basado en tokens semánticos y embeddings de emoción.