Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

本文提出了一种名为 S2S-ZEST 的无文本、非平行语音到语音零样本情感风格迁移框架,该框架通过分析 - 合成流水线提取语义、说话人和情感表征,在保留源语音内容与说话人身份的同时,成功将参考语音的情感风格迁移至目标语音,并在情感迁移效果及情感识别数据增强应用上优于现有方法。

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

该论文研究了在神经音频编解码器潜在空间中进行语音增强时,连续向量与离散令牌作为训练目标的性能差异,发现预测连续潜在表示优于离散令牌,非自回归模型在效率与可懂度上更具实用性,而结合编码器微调虽能显著提升增强指标,却会牺牲编解码器的重建质量。

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Fish Audio S2 Technical Report

Fish Audio S2 是一款开源的多说话人、多轮次且支持自然语言指令控制的高级文本转语音系统,其通过多阶段训练与数据流水线实现了生产级流式推理(RTF 0.195,首字延迟<100ms),并公开了模型权重、微调代码及基于 SGLang 的推理引擎。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

本文提出了一种名为通用语音内容分解(USCF)的简单可逆线性方法,该方法通过最小二乘优化学习通用语音到内容的映射,仅需少量目标语音即可在零样本条件下实现说话人音色抑制与语音内容保留,从而在语音转换和文本到语音合成任务中展现出优异的性能。

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess