ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis

이 논문은 저자원 개인화 음성 합성을 위해 제로샷 TTS 를 데이터 증강원으로 활용할 때 발생하는 화자 유사도 저하 문제를 해결하기 위해, 경량 도메인 임베딩과 실제 데이터 과샘플링을 결합한 ZeSTA 프레임워크를 제안하고 이를 통해 화자 유사성을 향상시키면서도 음성과 이해도를 유지하는 효과를 입증했습니다.

Youngwon Choi, Jinwoo Oh, Hwayeon Kim + 1 more2026-03-05🤖 cs.AI