ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction
この論文は、話者の感情やトーンなどの副言語的要素を適切に扱える音声対話モデルの構築を目指し、新しい強化学習フレームワーク「ParaS2S」と高品質な評価ベンチマーク「ParaS2SBench」を提案し、既存のモデルや教師あり微細化(SFT)を上回る性能を達成したことを報告しています。