[b]=[d]-[t]+[p]: Self-supervised Speech Models Discover Phonological Vector Arithmetic
该论文通过对 96 种语言的研究发现,自监督语音模型(S3Ms)的表示空间中存在与音系特征对应的线性方向,且这些向量具有可组合性,能够像算术运算一样通过向量加减和缩放来连续控制语音的音系属性(如清浊音)。
163 篇论文
该论文通过对 96 种语言的研究发现,自监督语音模型(S3Ms)的表示空间中存在与音系特征对应的线性方向,且这些向量具有可组合性,能够像算术运算一样通过向量加减和缩放来连续控制语音的音系属性(如清浊音)。
本文提出了 V2A-DPO,一种专为基于流的视频转音频模型设计的直接偏好优化框架,通过引入 AudioScore 评分系统、自动化偏好数据生成流水线以及课程学习策略,显著提升了生成音频与人类偏好的一致性,并在多项指标上超越了现有最先进模型。
该论文提出了一种基于 Transformer 的多模态自注意力网络框架,通过引入时序对齐旋转位置编码(TaRoPE)和跨时序匹配损失(CTM)来解决音视频模态间的采样率不匹配问题,从而在 CREMA-D 和 RAVDESS 数据集上显著提升了情感识别性能。
本文提出了 Uni-ASR,一种基于大语言模型的统一自动语音识别框架,通过联合训练范式实现非流式与流式模式的无缝切换,并借助上下文感知训练和协同设计的 fallback 解码策略,在无需增加延迟的前提下显著提升了流式识别的准确性。
该论文利用高保真临床语料库系统研究了亨廷顿舞蹈症自动语音识别,通过对比多种架构发现 Parakeet-TDT 表现最优,并提出了基于生物标志物的辅助监督方法,在显著降低词错率的同时揭示了错误模式随病情严重程度的差异化重塑。
该论文探讨了利用基于文本训练的大语言模型构建语音模型以定位部分伪造语音中的篡改词汇,实验表明模型虽能利用训练数据中的编辑风格模式(如词汇极性替换)在特定场景下有效工作,但如何避免过度依赖这些特定模式并提升对未见编辑风格的泛化能力仍是待解决的开放性问题。
该研究提出利用预训练的 XLS-R 模型(仅使用其前三层)实现高精度咳嗽片段自动检测,从而为在智能手机上部署可扩展的结核病筛查工具提供了高效可行的技术方案。
本文提出了名为 Fair-Gate 的公平性感知可解释风险门控框架,通过风险外推和局部互补门控机制,有效解决了语音生物识别系统中因捷径学习和特征纠缠导致的性别性能差距问题,从而在 VoxCeleb1 数据集上实现了更优的效用与公平性权衡。
该论文提出了一种结合伪标签继续预训练与监督微调的方法,利用 2 万条标注数据将 wav2vec2-bert-2.0 模型适配至斯瓦希里语自动语音识别任务,在 Common Voice 数据集上将词错率从基线的 8.3% 大幅降低至 3.24%,实现了当前学术界的最佳性能。
针对真实场景中多模态信号可靠性不一致及交互阶段依赖性问题,本文提出了 SAGE 框架,通过显式估计并校准模态置信度、动态重平衡音视频表示,实现了更鲁棒的连续效价 - 唤醒度估计,并在 Aff-Wild2 基准测试中显著优于现有方法。
该论文提出了名为 AnimeScore 的基于偏好的自动评估框架,通过收集大规模成对排序数据并分析声学特征,解决了动漫风格语音缺乏标准化客观评价指标的问题,并证明了基于 SSL 的排序模型在评估效果上显著优于传统手工特征。
本文提出了 ComVo,一种采用原生复数运算、相位量化及块矩阵计算方案的复数域神经声码器,旨在克服现有实值网络处理复数谱图时的结构局限,从而在提升波形合成质量的同时显著缩短训练时间。
本文提出了 SEMamba++,一种通过引入频率 GLP 模块、多分辨率并行时频双处理块及可学习映射来利用全局、局部和周期性频谱模式的全通用语音恢复框架,在保持计算高效的同时实现了超越现有基线模型的最优性能。
该论文提出了一种名为 RAF(相对论对抗反馈)的新型训练目标,通过利用语音自监督学习模型辅助判别器并采用相对论配对策略,显著提升了 GAN 语音合成器在域内保真度与未见场景下的泛化能力,且实验表明 RAF 训练的 BigVGAN-base 仅用 12% 的参数即可在感知质量上超越传统 LSGAN 训练的 BigVGAN。
本文提出了一种名为“因果韵律中介”的新型文本转语音框架,通过结合结构因果模型与反事实训练目标,在 FastSpeech2 架构中成功解耦了情感与语言内容,实现了可解释且可控的情感韵律编辑,显著提升了合成语音的情感表现力与跨说话人一致性。
该研究通过引入包含 12 名参与者 2780 条语句的新数据集,利用面部和颈部表面肌电信号(sEMG)成功实现了在发声与无声语音任务中对情绪(特别是挫败感)的可靠解码,证明了肌电特征在无声语音接口中感知情绪的有效性。
该论文针对大型音频语言模型忽视副语言线索的问题,提出了一种包含分层微调和辅助分类头的副语言增强微调(PE-FT)协议,通过分层分析识别关键层并有效提升了模型的副语言感知能力。
本文提出了 Dr. SHAP-AV 框架,利用 Shapley 值从全局、生成动态及时序对齐三个维度深入分析音频 - 视觉语音识别(AVSR)中的模态贡献,揭示了模型在噪声下虽转向视觉依赖但仍保持显著音频偏置的机制,并主张将 Shapley 归因作为 AVSR 诊断的标准方法。
该论文提出了风格引导的运动扩散模型(SGMD),通过结合 Transformer 架构、风格调制模块以及时空掩码机制,实现了能够根据音乐特征和用户风格提示生成既真实又具风格一致性、且支持轨迹生成、补间及修复等灵活控制任务的舞蹈序列。
本文提出了 ExSampling 系统,该系统结合录音应用与深度学习环境,通过自动将环境声映射到 Ableton Live 音轨,实现了基于实地录音的实时音乐表演及录音者、作曲者与演奏者之间的互动。