When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
Lo studio dimostra che il fine-tuning LoRA del backbone LLM Qwen-0.5B, se supportato da dati di addestramento sufficientemente diversificati, migliora significativamente la coerenza vocale, la fedeltà del parlante e il rapporto segnale-rumore nei sistemi TTS rispetto ai modelli congelati.