Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer
Die vorgestellte Arbeit stellt S2S-ZEST vor, ein textloses und nicht-paralleles Framework für das Zero-Shot-Emotionsstil-Transfer, das emotionale Merkmale aus einer Referenz auf eine Quelle überträgt, während Inhalt und Sprecheridentität erhalten bleiben, und dabei sowohl die Leistung als auch Anwendungen zur Daten-Augmentierung demonstriert.