ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction
Il paper introduce ParaS2S, un nuovo framework di apprendimento per rinforzo e un benchmark associato che migliorano significativamente la capacità dei modelli di parlare-parlare di comprendere e rispondere adeguatamente sia al contenuto che agli aspetti paralinguistici (come tono ed emozione) direttamente a livello di forma d'onda, superando i limiti delle attuali soluzioni basate su pipeline o sul solo fine-tuning supervisionato.