When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
Cette étude démontre que le fine-tuning LoRA d'un modèle de langage compact (Qwen-0.5B) améliore significativement la fidélité vocale, la qualité perceptive et le rapport signal sur bruit dans les systèmes TTS, à condition que les données d'entraînement présentent une diversité acoustique suffisante.