ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

本文提出了 ZeSTA 框架,通过引入轻量级域嵌入区分真实与合成语音并结合真实数据过采样,有效解决了在低资源个性化语音合成中直接混合合成数据导致说话人相似度下降的问题,从而在保持语音可懂度和感知质量的同时显著提升了说话人相似度。

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI