Towards Lightweight Adaptation of Speech Enhancement Models in Real-World Environments
该论文提出了一种通过自监督训练更新低秩适配器来微调冻结骨干网络的轻量级框架,仅需更新不到 1% 的参数即可在动态声学场景中实现高效的语音增强模型自适应,显著提升了模型在复杂噪声环境下的鲁棒性与感知质量。
159 篇论文
该论文提出了一种通过自监督训练更新低秩适配器来微调冻结骨干网络的轻量级框架,仅需更新不到 1% 的参数即可在动态声学场景中实现高效的语音增强模型自适应,显著提升了模型在复杂噪声环境下的鲁棒性与感知质量。
该研究通过评估两种说话人匿名化技术在西班牙语数据集上的表现,发现虽然 STT-TTS 因消除韵律信息而严重损害帕金森病检测能力,但 kNN-VC 因能保留宏观韵律特征,仅使检测性能轻微下降,从而证明了在保护隐私的同时实现有效帕金森病检测的可行性。
该论文针对零样本语音克隆的隐私风险,正式提出了“语音生成 speaker poisoning"(SGSP)任务,旨在通过修改模型参数在保留通用语音合成能力的同时有效阻止特定说话人身份的生成,并评估了该方法在不同遗忘规模下的隐私保护与效用权衡。
该论文发布了首个尼泊尔语(Newari)5.39 小时人工转写天城文语音语料库"Nw\=ach\=a Mun\=a",并证明在超低资源自动语音识别任务中,利用地理和语言邻近的尼泊尔语进行迁移学习,能以更少的参数量达到与大规模多语言模型相当的性能。
本文提出了一种基于分析驱动的引擎声音生成框架,通过从真实录音中提取谐波结构并驱动参数化合成器,构建了包含精确转速与扭矩标注的“程序化引擎声音数据集”,以解决高质量标注数据稀缺的问题并支持相关领域的研究与开发。
该论文介绍了 VoiceSHIELD-Small,这是一种基于 Whisper-small 的轻量级实时模型,能够同步完成语音转录与恶意内容检测,在保持低延迟的同时实现了 99.16% 的高准确率,旨在解决语音交互中的新兴安全风险。
SoundWeaver 是首个无需训练且与模型无关的文本转音频扩散服务系统,它通过语义相似缓存音频进行热启动,在保持或提升感知质量的同时将延迟降低了 1.8 至 3.0 倍。
该论文提出了一种结合预训练 Wav2Vec 2.0 嵌入与模块化统计变换(包括幂变换、ANOVA 特征选择、联合 PCA 及 CORAL 对齐)的无监督域自适应框架,旨在无需目标域标签的情况下提升音频深度伪造检测在跨域场景下的泛化能力与可解释性。
本文提出了名为 MambaDance 的新方法,通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型,并结合高斯节拍表示来显式引导解码,从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。
本文提出了名为 WhispEar 的双向框架,通过统一语义表示实现正常语音到耳语的零样本伪平行数据生成,从而利用大规模数据增强显著提升了耳语转正常语音的转换性能,并发布了迄今最大的中英双语耳语 - 正常语音平行语料库。
本文提出了 PathBench,这是一个基于公开数据集的病理语音评估统一基准,通过对比不同协议和方法建立了系统性评估标准,并引入了在参考自由方法中表现最优的 DArtP 指标。
本文提出了 FoleyFlow,一种通过掩码建模训练实现音视频语义与节奏对齐,并利用动态条件流框架基于视频特征生成协调音频的新方法,其在基准测试中显著超越了现有成果。
该论文提出了一种基于频谱图的卷积神经网络方法,用于解决南亚复杂环境下的多标签声音分类难题,并在 SAS-KIIT 和 UrbanSound8K 数据集上证明了其性能显著优于传统的 MFCC 技术。
该论文针对语音模型量化中因激活值范围大而导致的信息丢失问题,提出了一种基于进化策略的校准方法(ESC),实现了在多个语音任务中全 INT8 无损及全 INT4 近无损的量化性能。
DualTurn 是一种基于双通道生成式语音预训练的模型,它通过无监督学习对话动态并微调为可解释的轮次信号,实现了比现有方法更自然、更精准的语音交互轮次预测与代理动作生成。
该论文针对现有语音情感识别方法过度简化情感模糊性的问题,提出了一种将模糊情感识别重构为分布推理任务的框架,通过引入对齐人类感知分布的目标和结构化思维链监督,显著提升了大型音频语言模型在 IEMOCAP 和 CREMA-D 数据集上的情感预测能力。
本文提出了一种基于范围 - 零空间分解理论的时频域新型神经声码器,通过双路径框架与训练阶段的数据增强策略,在保持轻量级结构的同时实现了可配置推理及最先进的语音合成性能。
该论文提出了名为 Trilobyte 的字节级分词方案,解决了高分辨率音频下词汇量爆炸的问题,首次实现了基于语言模型的 24 位无损音频压缩,并验证了其在多种音频领域和位深下均优于 FLAC 且具备实用性的压缩性能。
该论文指出,尽管深度语音降噪(DNS)模型被广泛应用于高安全场景,但通过添加人耳难以察觉的对抗性噪声即可使其输出变为无法理解的乱码,且经专家验证和主观测试证实了攻击的有效性与隐蔽性,从而强调了在将其用于安全关键应用前必须采取实际防御措施。
该论文提出了一种情感感知的多注册融合方法,通过在高缺失率下训练,显著提升了视听目标说话人提取系统在测试阶段面对模态缺失时的鲁棒性,并证明了结合单帧人脸图像与帧级唇部特征是实现高性能与高鲁棒性的有效策略。