Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

本文提出了一种名为 S2S-ZEST 的无文本、非平行语音到语音零样本情感风格迁移框架,该框架通过分析 - 合成流水线提取语义、说话人和情感表征,在保留源语音内容与说话人身份的同时,成功将参考语音的情感风格迁移至目标语音,并在情感迁移效果及情感识别数据增强应用上优于现有方法。

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

该论文通过跨验证和零假设检验,评估了 17 种预训练语音嵌入系统在 6 个异构数据集上检测构音障碍的表现,揭示了数据集选择对基准测试结果的显著影响以及跨数据集泛化能力的不足,从而对基于同数据集训练测试的临床系统有效性提出了质疑。

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

Latent Speech-Text Transformer

该论文提出了潜语音 - 文本 Transformer(LST),通过将离散语音令牌聚合为更高阶的潜语音补丁,解决了语音与文本模态间的序列长度不平衡问题,从而在提升计算效率的同时显著增强了跨模态对齐能力,并在语音理解、生成及下游任务中实现了性能与效率的双重优化。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Modeling strategies for speech enhancement in the latent space of a neural audio codec

该论文研究了在神经音频编解码器潜在空间中进行语音增强时,连续向量与离散令牌作为训练目标的性能差异,发现预测连续潜在表示优于离散令牌,非自回归模型在效率与可懂度上更具实用性,而结合编码器微调虽能显著提升增强指标,却会牺牲编解码器的重建质量。

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Universal Speech Content Factorization

本文提出了一种名为通用语音内容分解(USCF)的简单可逆线性方法,该方法通过最小二乘优化学习通用语音到内容的映射,仅需少量目标语音即可在零样本条件下实现说话人音色抑制与语音内容保留,从而在语音转换和文本到语音合成任务中展现出优异的性能。

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess