ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

Das Paper stellt ZeSTA vor, einen einfachen Trainingsrahmen mit domänenbedingten Einbettungen und Überabtastung echter Daten, der die Qualität von personalisierten Sprachsynthesen bei extrem wenigen Ziel-Daten verbessert, indem er die Nachteile einer naiven Mischung aus synthetischen und realen Aufnahmen bei der Zero-Shot-TTS-Datenverstärkung vermeidet.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI