ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis
El artículo presenta ZeSTA, un marco de entrenamiento condicionado al dominio que mejora la síntesis de voz personalizada con pocos datos al utilizar audio sintético de generación cero disparos para aumento, preservando la similitud del hablante mediante embebidos de dominio y sobre-muestreo de datos reales.