ZeSTA: Zero-Shot TTS Augmentation with Domain-Conditioned Training for Data-Efficient Personalized Speech Synthesis
本論文は、低リソースな個人向け音声合成において、ゼロショット TTS による合成音声の単純な混合が話者類似性を低下させる問題を解決するため、ドメイン埋め込みと実データの過剰サンプリングを組み合わせた ZeSTA というフレームワークを提案し、話者類似性の向上と音声の質の維持を両立させることを示しています。