Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer
本文提出了一种名为 S2S-ZEST 的无文本、非平行语音到语音零样本情感风格迁移框架,该框架通过分析 - 合成流水线提取语义、说话人和情感表征,在保留源语音内容与说话人身份的同时,成功将参考语音的情感风格迁移至目标语音,并在情感迁移效果及情感识别数据增强应用上优于现有方法。
133 篇论文
本文提出了一种名为 S2S-ZEST 的无文本、非平行语音到语音零样本情感风格迁移框架,该框架通过分析 - 合成流水线提取语义、说话人和情感表征,在保留源语音内容与说话人身份的同时,成功将参考语音的情感风格迁移至目标语音,并在情感迁移效果及情感识别数据增强应用上优于现有方法。
本文提出了一种名为 TI-DANSE+ 的改进算法,通过利用邻居节点的局部部分和及树剪枝策略,解决了原有拓扑无关分布式信号估计算法收敛慢的问题,使其在保持拓扑鲁棒性的同时实现了更快的收敛速度并节省了通信带宽。
该论文指出传统 CLAP 评分与人类主观评价相关性较低,并提出了一种基于人类感知的主观评分训练的 Human-CLAP 模型,使其与主观评价的斯皮尔曼等级相关系数提升了 0.25 以上。
该研究提出了一种多语言混合语音问答范式,发现人类在母语中凭借选择性注意能更有效地处理复杂声景,而语音大语言模型虽在单 speaker 条件下表现优异,但在多 speaker 场景下的选择性注意力机制上仍与人类存在显著差异。
该论文通过跨验证和零假设检验,评估了 17 种预训练语音嵌入系统在 6 个异构数据集上检测构音障碍的表现,揭示了数据集选择对基准测试结果的显著影响以及跨数据集泛化能力的不足,从而对基于同数据集训练测试的临床系统有效性提出了质疑。
本文提出了 VSSFlow,一种基于流匹配的联合学习框架,通过引入解耦条件聚合机制,成功统一了视频到声音和视频文本到语音生成任务,并在端到端联合训练中实现了超越现有专用基线的性能。
本文提出了 VoiceBridge,一种基于能量保持变分自编码器、联合神经先验及桥接训练目标的一步潜在桥接模型,能够利用单一潜在生成过程高效恢复从去噪、超分到合成语音优化等多种失真场景下的高质量全频带语音。
该论文提出了潜语音 - 文本 Transformer(LST),通过将离散语音令牌聚合为更高阶的潜语音补丁,解决了语音与文本模态间的序列长度不平衡问题,从而在提升计算效率的同时显著增强了跨模态对齐能力,并在语音理解、生成及下游任务中实现了性能与效率的双重优化。
该论文提出了一种噪声条件混合专家框架,通过噪声感知专家路由、通用模型专家专业化策略及信噪比衰减课程学习协议,将特征空间分解为专用子空间,从而在复杂噪声环境下显著提升了说话人验证的鲁棒性与泛化能力。
该论文研究了在神经音频编解码器潜在空间中进行语音增强时,连续向量与离散令牌作为训练目标的性能差异,发现预测连续潜在表示优于离散令牌,非自回归模型在效率与可懂度上更具实用性,而结合编码器微调虽能显著提升增强指标,却会牺牲编解码器的重建质量。
本文提出了 WhisperVC,一种针对低资源场景的三阶段框架,通过解耦跨域对齐与语音生成,利用 Conformer-VAE 提取域不变语义表征并结合仅基于正常语音训练的生成模型,实现了高质量的耳语转正常语音转换。
该论文提出了一种结合多种水印技术的多路复用范式,包括无训练的感知自适应时频多路复用(PA-TFM)和基于模型学习的 MaskNet 框架,旨在通过利用技术互补性显著提升音频水印在神经重建及对抗攻击等复杂场景下的鲁棒性。
该研究通过虚拟环境实验发现,在嘈杂的双人对话中,说话者会通过增加手势复杂度和躯干运动、提高音量来适应噪声,而听者则通过增强头部和躯干动作来优化信噪比,且中等噪声水平会轻微降低手语同步性。
本文首次系统研究了离散语音表示(DSRTs)中的口音信息编码,提出了一套包含口音 ABX 测试和跨口音语音转换的评估框架,并发现层的选择对保留口音信息影响最大,而 ASR 监督会显著削弱口音信息,且简单的码本缩减无法有效解耦口音与音素及说话人信息。
该论文提出了一种基于瓶颈 Transformer 架构的新方法,通过结合卷积块与多头自注意力机制来预测短时客观可懂度(STOI)指标,在无需参考语音的非侵入式评估中,其表现优于现有的自监督学习模型。
本文提出了名为 VoxEmo 的综合基准,旨在通过引入分布感知软标签和提示词集成策略,评估语音大语言模型在跨语言、多语料库场景下对情感模糊性的建模能力及其与人类主观分布的契合度。
该论文针对真实世界中音视频分布动态演变的挑战,首次提出了一个无样本的音视频分割持续学习基准,并设计了结合音频引导预融合条件与低秩锚定技术的 ATLAS 基线模型,以在避免灾难性遗忘的同时实现持续感知。
本文提出了一种名为通用语音内容分解(USCF)的简单可逆线性方法,该方法通过最小二乘优化学习通用语音到内容的映射,仅需少量目标语音即可在零样本条件下实现说话人音色抑制与语音内容保留,从而在语音转换和文本到语音合成任务中展现出优异的性能。
该论文研究了神经音频编解码器中残差矢量量化深度对对抗鲁棒性的影响,发现存在容量与鲁棒性之间的非单调权衡,其中中等量化深度能在保留语音内容的同时有效抑制对抗扰动,从而在对抗性攻击下实现最低的转录错误率。
该论文提出了一种名为“情感感知前缀”的新方法,通过在两阶段语音转换骨干网络中联合控制序列调制与声学实现,将情感转换准确率从 42.40% 显著提升至 85.50%,同时有效保持了说话人身份、语言完整性和语音质量。