Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer
Il paper propone S2S-ZEST, un framework zero-shot per il trasferimento dello stile emotivo da voce a voce in contesti privi di testo e non paralleli, che preserva contenuto e identità del parlante mentre imita l'emozione di riferimento, dimostrando prestazioni superiori rispetto ai metodi precedenti e un'utilità per l'aumento dei dati nei compiti di riconoscimento emotivo.