ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction
Dit paper introduceert ParaS2S, een nieuw versterkingsleerframework en bijbehorende benchmark die spraak-tot-spraakmodellen optimaliseren voor paralinguïstische cues zoals emotie en toon, waardoor ze significant beter presteren dan eerdere modellen met minder gekoppelde trainingsdata.