When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
Dit onderzoek toont aan dat LoRA-finetuning van een compact LLM (Qwen-0.5B) voor tekst-naar-spraak, mits ondersteund door diverse trainingsdata, aanzienlijke verbeteringen oplevert in perceptuele kwaliteit, sprekerstrouw en signaalruisverhouding vergeleken met een bevroren basismodel.