ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis
이 논문은 저자원 개인화 음성 합성을 위해 제로샷 TTS 를 데이터 증강원으로 활용할 때 발생하는 화자 유사도 저하 문제를 해결하기 위해, 경량 도메인 임베딩과 실제 데이터 과샘플링을 결합한 ZeSTA 프레임워크를 제안하고 이를 통해 화자 유사성을 향상시키면서도 음성과 이해도를 유지하는 효과를 입증했습니다.