ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

Le papier propose ZeSTA, un cadre d'entraînement conditionné par le domaine qui améliore la synthèse de parole personnalisée à faible ressource en utilisant l'augmentation de données par synthèse zéro-shot tout en préservant la similarité de l'orateur grâce à un embedding léger et un suréchantillonnage des données réelles.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI