ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction
El artículo presenta ParaS2S, un nuevo marco de aprendizaje por refuerzo y un benchmark (ParaS2SBench) que optimizan la capacidad de los modelos de voz a voz para responder adecuadamente tanto en contenido como en estilo paralingüístico, superando a los enfoques anteriores con menos datos de entrenamiento.