When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
Este trabalho demonstra que o ajuste fino LoRA de modelos de linguagem grandes (LLMs) para sistemas de síntese de fala (TTS) melhora significativamente a qualidade perceptiva, a fidelidade do locutor e a relação sinal-ruído, desde que apoiado por dados de treinamento com diversidade acústica suficiente.