SEMamba++: A General Speech Restoration Framework Leveraging Global, Local, and Periodic Spectral Patterns
本文提出了 SEMamba++,一种通过引入频率 GLP 模块、多分辨率并行时频双处理块及可学习映射来利用全局、局部和周期性频谱模式的全通用语音恢复框架,在保持计算高效的同时实现了超越现有基线模型的最优性能。
141 篇论文
本文提出了 SEMamba++,一种通过引入频率 GLP 模块、多分辨率并行时频双处理块及可学习映射来利用全局、局部和周期性频谱模式的全通用语音恢复框架,在保持计算高效的同时实现了超越现有基线模型的最优性能。
该论文提出了一种名为 RAF(相对论对抗反馈)的新型训练目标,通过利用语音自监督学习模型辅助判别器并采用相对论配对策略,显著提升了 GAN 语音合成器在域内保真度与未见场景下的泛化能力,且实验表明 RAF 训练的 BigVGAN-base 仅用 12% 的参数即可在感知质量上超越传统 LSGAN 训练的 BigVGAN。
该研究通过引入包含 12 名参与者 2780 条语句的新数据集,利用面部和颈部表面肌电信号(sEMG)成功实现了在发声与无声语音任务中对情绪(特别是挫败感)的可靠解码,证明了肌电特征在无声语音接口中感知情绪的有效性。
本文提出了 ReDimNet2,一种通过在 1D 处理路径中引入时间维度池化来扩展通道维度的改进型说话人验证网络,其包含 B0-B6 七个模型配置,在 VoxCeleb1 基准测试中实现了比前代 ReDimNet 更优的计算成本与准确率权衡。
该研究通过对比实验证明,利用清洁环境下的语音数据训练或测试的模型,能够像去噪后的 MRI 语音一样有效地实现从语音到发音器官形状的逆转换,其均方根误差低至 1.56 毫米。
本文通过对比不同准确度的音素分割层级(未校正自动转录、时间对齐分割及专家手动校正)与基于 MFCC 的基线模型,研究了利用 MRI 数据从语音重建声道几何形状的方法,结果表明经过专家手动校正的音素表示在重建性能上最接近基线水平。
本文系统综述了在大语言模型时代下,通过整合多模态生理传感技术与生成式人工智能以解决信息稀疏性,从而推动无声语音接口从实验室走向可穿戴设备并构建用户依赖解决方案与伦理安全框架的全面进展。
该论文针对大型音频语言模型忽视副语言线索的问题,提出了一种包含分层微调和辅助分类头的副语言增强微调(PE-FT)协议,通过分层分析识别关键层并有效提升了模型的副语言感知能力。
本文提出了 Dr. SHAP-AV 框架,利用 Shapley 值从全局、生成动态及时序对齐三个维度深入分析音频 - 视觉语音识别(AVSR)中的模态贡献,揭示了模型在噪声下虽转向视觉依赖但仍保持显著音频偏置的机制,并主张将 Shapley 归因作为 AVSR 诊断的标准方法。
该论文提出了风格引导的运动扩散模型(SGMD),通过结合 Transformer 架构、风格调制模块以及时空掩码机制,实现了能够根据音乐特征和用户风格提示生成既真实又具风格一致性、且支持轨迹生成、补间及修复等灵活控制任务的舞蹈序列。
本文提出了 ExSampling 系统,该系统结合录音应用与深度学习环境,通过自动将环境声映射到 Ableton Live 音轨,实现了基于实地录音的实时音乐表演及录音者、作曲者与演奏者之间的互动。
该研究通过分析大量头颈癌患者的数据,发现主观感知评估与客观声学测量之间存在显著关联,并建议单一的可懂度指标足以用于监测接受同步放化疗患者的言语功能。
该研究通过对 11 种自监督语音模型的大规模探测分析,揭示了其分层编码机制及深层层意外恢复说话人身份的特性,并发现中间层在捕捉动态韵律方面优于专用说话人嵌入,从而为选择可解释且任务最优的表示提供了指导。
本文提出了一种名为 TSPC 的两阶段音素中心架构,通过以扩展越南语音素集为中间表示的混合语言建模方法,在低计算资源下显著提升了越南语 - 英语代码转换语音识别的准确率。
本文提出了 BabyHuBERT,一个基于 1.3 万小时多语言儿童录音训练的自监督语音模型,其在区分目标儿童与不同说话者类型的任务中显著优于现有成人语音模型,有效解决了儿童中心长时录音分析中的语言差异挑战。
本文提出了集成音频编码器与 Mamba-2 骨干网络的 SAM 模型,通过系统分析揭示了联合微调、紧凑音频 Token 表示及指令监督对提升性能的关键作用,证明了其能以更少的参数实现媲美或超越更大规模 Transformer 模型的音频语言处理能力。
该研究通过 DRES 评估框架揭示,尽管微调能提升性能,但作为 SpeechLLM 骨干的 LLM 在处理口语自发不流利现象时存在结构性鲁棒性缺陷,特别是推理模型倾向于过度删除流畅内容以追求语义抽象,且微调往往损害了模型的泛化能力。
本文提出了名为 Noise-to-Notes (N2N) 的新框架,将自动鼓乐转录重新定义为基于扩散模型的生成式任务,通过引入退火伪 Huber 损失函数解决离散与连续值联合优化难题,并结合音乐基础模型特征显著提升了跨域鲁棒性,在多个基准测试中取得了最先进性能。
本文提出了将薛定谔桥训练范式与 Mamba 架构相结合的 Schrödinger Bridge Mamba(SBM)模型,该模型仅需单步推理即可在联合去噪和去混响任务中超越现有强基线方法,同时保持适合流式处理的实时性。
该论文提出了一种融合能量自适应混合增强与帧级注意力机制的多损失学习框架,通过优化特征提取与损失函数组合,在四个主流数据集上实现了语音情感识别的先进性能。