Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction
本文提出了一种训练动态感知的多因素课程学习框架,通过引入 TSE-Datamap 可视化分析模型在不同训练阶段的置信度与变异性,将数据划分为易学、模糊和困难三类区域,从而实现对信噪比、说话人数量、重叠率及合成/真实数据比例等多因素联合调度,显著提升了复杂多说话人场景下的目标说话人提取性能。
163 篇论文
本文提出了一种训练动态感知的多因素课程学习框架,通过引入 TSE-Datamap 可视化分析模型在不同训练阶段的置信度与变异性,将数据划分为易学、模糊和困难三类区域,从而实现对信噪比、说话人数量、重叠率及合成/真实数据比例等多因素联合调度,显著提升了复杂多说话人场景下的目标说话人提取性能。
本文提出了通过“验证 - 生成 - 批判”(VGC)流程构建的台湾方言音频文本数据集 TW-Sound580K,并基于此开发了 Tai-LALM 模型,通过引入动态双 ASR 仲裁策略显著提升了模型在本地化语音任务上的表现。
本文提出了名为 PolyBench 的新基准,旨在评估大音频语言模型在复调音频中对多事件并发及其关系的组合推理能力,并揭示了现有模型在此类任务中普遍存在的性能瓶颈。
本文提出了名为 ASR-TRA 的新型测试时强化适应框架,通过引入可学习解码提示、温度控制随机解码及基于音文语义对齐的奖励机制,有效克服了传统测试时适应方法中的确认偏差问题,显著提升了自动语音识别系统在噪声和口音等分布偏移场景下的鲁棒性与准确率。
本文提出了 SarcasmMiner,一种基于强化学习的后训练框架,通过双轨蒸馏策略和分组相对策略优化(GRPO)解决多模态讽刺检测中的幻觉问题,在 MUStARD++ 数据集上将 F1 分数从 68.23% 提升至 70.22%。
本文提出了 WavSLM,一种通过量化和蒸馏自监督 WavLM 表征至单一码本并优化自回归预测目标,从而在无文本监督下实现语义与声学信息统一建模的流式语音语言模型。
本文提出了 SLICE 方法,通过将源自预训练编码器的退化条件嵌入注入到扩散模型的每一层(而非仅输入层),有效解决了现实世界中多种退化(如噪声、混响和非线性失真)同时存在时语音增强性能下降的问题。
本文提出了 Latent-Mark,这是首个通过向神经编解码器的不变潜在空间嵌入水印,从而有效抵御神经重合成攻击并兼具传统信号处理鲁棒性与感知不可察觉性的零比特音频水印框架。
本文提出了无需重新训练的 MSpoof-TTS 框架,通过多分辨率欺骗检测与分层解码策略,在推理阶段动态引导神经编解码语言模型生成更高质量、更鲁棒的零样本离散语音。
本文提供了一份从零构建企业级实时语音代理的技术教程,通过系统分析指出原生端到端语音模型延迟过高,而采用流式级联架构(Deepgram 语音识别 + vLLM 流式 LLM 推理 + ElevenLabs 流式语音合成)是实现低延迟(P50 约 947ms)的关键,并发布了包含完整可运行代码的开源项目。
该论文提出了一种具备早期退出能力的语音分离与增强神经网络架构,并结合不确定性感知概率框架,实现了在不牺牲重建质量的前提下根据目标信噪比动态调整计算量,从而显著提升了在移动和异构设备上的部署效率。
本文提出了 MeanFlowSE,一种通过直接学习轨迹上有限区间的平均速度来实现单步推理的生成式语音增强模型,在无需知识蒸馏的情况下显著降低了计算成本并保持了高保真度。
本文提出了 LadderSym,一种基于双流编码器与符号提示解码器的多模态交错 Transformer 模型,通过改进跨模态对齐并减少频率歧义,显著提升了音乐练习错误检测的 F1 分数。
该研究通过量化 36 种音频模型与大脑活动的对齐程度,发现自监督音频模型在下游任务中的性能提升与其对听觉皮层活动的预测能力呈强正相关,表明脑类表征是模型学习从自然音频中重建缺失信息时的涌现副产品。
本文提出了面向 TinyML 关键词识别的多目标贝叶斯优化方法 OASI,通过利用多目标模拟退火生成的帕累托偏置解来初始化代理模型,从而在严格资源约束下显著提升了优化收敛性与内存可行性。
本文针对音乐生成模型评估滞后的问题,提出了涵盖大规模偏好数据集、细粒度人类标注语料及统一基准测试的 CMI-RewardBench 生态系统,并开发了能够处理异构多模态指令的 CMI 奖励模型,显著提升了与人类判断的相关性并支持推理时的有效扩展。
本文提出了一种名为 SMMA 的深度学习自动化框架,通过结合分割与骨架化技术实现了对言语过程中舌骨下肌群(geniohyoid)厚度的精准测量,不仅达到了接近人工标注的准确度,还揭示了粤语元音发音中的肌肉激活模式及性别差异,为大规模言语运动控制研究及吞咽障碍评估提供了可扩展的客观工具。
本文提出了名为 ACES 的表征中心审计方法,通过提取低维口音判别子空间来揭示自动语音识别系统中口音差异的内在机制,发现口音特征与识别关键线索深度纠缠,表明单纯消除这些特征无法改善公平性,反而应将其作为诊断模型脆弱性的关键工具。
本文介绍了 CP-JKU 团队为 ICASSP 2025 音乐源恢复挑战赛提出的系统,该系统通过结合采用三阶段课程学习策略的 BandSplit-RoFormer 分离模型与从通用专家演化为八个乐器特定专家的 HiFi++ GAN 波形恢复器,实现了从混音母带中高质量恢复原始乐器分轨的目标。
本文提出了一种名为 FastWave 的优化扩散模型,通过应用最新的训练技术,在仅需 130 万参数和约 50 GFLOPs 计算量的情况下,实现了从任意采样率到 48 kHz 的高质量音频超分辨率,其性能优于 NU-Wave 2 且与最先进模型相当,同时显著降低了训练和推理的资源需求。