Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer
Dit artikel introduceert S2S-ZEST, een tekstloos en niet-parallel framework voor zero-shot emotiestijloverdracht dat de emotionele kenmerken van een referentie op een bronstem toepast terwijl de spraakinhoud en sprekeridentiteit behouden blijven.