ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis
Das Paper stellt ZeSTA vor, einen einfachen Trainingsrahmen mit domänenbedingten Einbettungen und Überabtastung echter Daten, der die Qualität von personalisierten Sprachsynthesen bei extrem wenigen Ziel-Daten verbessert, indem er die Nachteile einer naiven Mischung aus synthetischen und realen Aufnahmen bei der Zero-Shot-TTS-Datenverstärkung vermeidet.