ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis
Il paper propone ZeSTA, un framework di addestramento condizionato al dominio che migliora la sintesi vocale personalizzata a risorse limitate utilizzando l'augmentazione Zero-Shot TTS senza compromettere la somiglianza del parlante.