ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis
Dit artikel introduceert ZeSTA, een framework dat zero-shot tekst-naar-spraak gebruikt als data-augmentatie voor gepersonaliseerde spraaksynthese, waarbij domein-geconditioneerde training en oversampling van echte data de sprekersgelijkenis verbeteren zonder de basisarchitectuur aan te passen.