When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
Este trabajo demuestra que el ajuste fino con LoRA de modelos de lenguaje grandes compactos para sistemas de síntesis de voz mejora significativamente la calidad perceptiva, la fidelidad del hablante y la relación señal-ruido, siempre que se utilice un conjunto de datos de entrenamiento suficientemente diverso.