ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis
O artigo propõe o ZeSTA, um framework de treinamento condicionado a domínios que utiliza embeddings leves e superamostragem de dados reais para melhorar a similaridade do locutor na síntese de voz personalizada com poucos recursos, mitigando a degradação causada pela mistura ingênua de dados sintéticos e reais.