Acoustic and Semantic Modeling of Emotion in Spoken Language
该论文提出了一种联合建模语音中声学特征与语义信息的框架,通过情感感知表示学习、对话场景下的情感识别以及基于文本无关的非平行语音到语音情感风格迁移,显著提升了情感理解与合成的能力。
137 篇论文
该论文提出了一种联合建模语音中声学特征与语义信息的框架,通过情感感知表示学习、对话场景下的情感识别以及基于文本无关的非平行语音到语音情感风格迁移,显著提升了情感理解与合成的能力。
本文提出了 SPAR-K 框架,通过一种模态感知的交替深度调度策略(即大部分语音令牌在中间层提前退出,并周期性插入全深度“刷新”步骤),在几乎不降低语音转录准确率、感知质量和问答精度的前提下,显著降低了交错式语音语言模型的推理计算成本。
该研究通过系统评估和引入过渡矩阵框架,揭示了对比解码在修正大音频语言模型“误报无音频”或“不确定性猜测”类错误方面的有效性及其对模型架构的依赖性,从而为根据基线错误特征选择最合适的增强策略提供了明确指导。
本文提出了基于 PASE 的 StuPASE 模型,通过采用干声目标微调及用流匹配模块替代生成对抗网络,在保持低幻觉特性的同时实现了强噪声和混响条件下的录音室级语音增强质量。
本文提出了一种名为脉冲串谐振器(PTR)的可微分合成架构,通过直接建模基于物理的排气脉冲序列及其在谐振器中的传播,实现了比传统谐波加噪声基线模型更准确且具备物理可解释性的引擎声音合成。
该论文提出了一种利用空间编码器和方向先验嵌入的端到端多通道关键词检测框架,通过联合优化空间线索与语音特征,显著提升了复杂噪声环境下的检测鲁棒性。
该论文通过建立包含 SGMSE+ 的插值随机微分方程(iSDE)形式化框架,并提出了一种新型求解器,使得语音恢复任务中的扩散模型仅需约 10 次神经网络评估即可实现快速采样。
本文提出了 Speech-Omni-Lite,一种通过冻结预训练视觉语言骨干网络并仅训练轻量级插件模块,利用低成本构建的数据策略,在无需大规模多模态数据的情况下实现高效语音理解与生成且保持原有视觉语言性能的框架。
本文提出了一种通过微调预训练文本到音频模型来生成房间脉冲响应(RIR)的新方法,利用视觉语言模型构建文本-RIR 配对数据并引入上下文学习策略,有效解决了数据稀缺问题,生成的 RIR 在主观听感测试和下游自动语音识别任务中均表现出良好的真实性与实用性。
该论文提出了 MUGEN 基准以评估大音频语言模型的多音频理解能力,揭示了其在并发输入增加时性能显著下降的瓶颈,并发现结合音频排列自洽性与思维链策略可显著提升模型表现。
本文介绍了名为 DRES 的 1.5 小时荷兰语半自发语音数据集,该数据集在嘈杂的公共室内环境中录制,旨在评估自动语音识别和语音增强模型在真实场景下的性能,研究发现尽管部分模型表现良好,但现代单通道语音增强技术并未显著提升识别效果。
本文提出了一种适用于全连接无线声学传感器网络的分布式多通道维纳滤波(dMWF)算法,该算法无需迭代即可在节点观测源不同的情况下实现与集中式系统最优性能匹配的语音估计,并显著优于现有的迭代式 DANSE 算法。
本文提出了一种名为 MLVAS 的多模态喉镜视频分析系统,该系统通过融合音频关键词检测与基于扩散模型优化的视频声门分割技术,自动提取关键视频片段并生成客观的声带运动指标,从而辅助临床医生对声带麻痹进行更可靠的诊断。
本文提出了 ExpGest 框架,这是一种基于扩散模型的首创性全肢体手势生成方法,通过融合音频与文本信息、引入噪声情感分类器及潜在空间对齐技术,有效解决了现有方法在情感表达、语义一致性和全身运动自然度方面的不足,实现了更具表现力和可控性的演讲者动作生成。
本文介绍了 DCASE 2025 挑战赛中的第五项任务,即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准,旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展,使其具备接近人类水平的感知与交互能力。
本文提出了 BemaGANv2,一种通过引入 AMP 生成模块和 MED 判别器,并系统评估多种判别器组合策略,以实现高保真、长时程音频生成(如文本转音乐/音频)的先进 GAN 语音合成器。
本文提出了名为 WaLi 的攻击方法,利用 HVAC 系统中现有的压力传感器,通过复数 Conformers 和全局注意力机制从低分辨率噪声数据中重建出可懂度较高的人类语音,揭示了此类传感器前所未有的隐私泄露风险并提供了相应的防御方案。
本文提出了名为 SUBARU 的框架,通过在助听设备中联合采用亚奈奎斯特采样率和低比特分辨率模数转换,并结合宽带重建方法,在显著降低功耗的同时实现了嘈杂环境下的高效多模态语音增强。
本文提出了名为 ECHO 的新型基础模型,通过融合频带分割架构与频率位置编码,实现了对任意采样率和可变长度机器信号(如声学、振动及工业传感器数据)的高效建模,并在异常检测与故障分类任务中取得了领先性能。
该论文提出了首个基于 LibriTTS-R 的公开语音印象(VI)语料库 LibriTTS-VI,并设计了通过双 utterance 解耦训练及无参考音频控制的新方法,有效解决了语音印象控制中缺乏公开数据和印象泄露的问题,显著提升了数值化语音印象控制的精度。