Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

本文提出了一种训练动态感知的多因素课程学习框架,通过引入 TSE-Datamap 可视化分析模型在不同训练阶段的置信度与变异性,将数据划分为易学、模糊和困难三类区域,从而实现对信噪比、说话人数量、重叠率及合成/真实数据比例等多因素联合调度,显著提升了复杂多说话人场景下的目标说话人提取性能。

Yun Liu, Xuechen Liu, Xiaoxiao Miao + 1 more2026-03-06💻 cs

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

本文提供了一份从零构建企业级实时语音代理的技术教程,通过系统分析指出原生端到端语音模型延迟过高,而采用流式级联架构(Deepgram 语音识别 + vLLM 流式 LLM 推理 + ElevenLabs 流式语音合成)是实现低延迟(P50 约 947ms)的关键,并发布了包含完整可运行代码的开源项目。

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Automated Measurement of Geniohyoid Muscle Thickness During Speech Using Deep Learning and Ultrasound

本文提出了一种名为 SMMA 的深度学习自动化框架,通过结合分割与骨架化技术实现了对言语过程中舌骨下肌群(geniohyoid)厚度的精准测量,不仅达到了接近人工标注的准确度,还揭示了粤语元音发音中的肌肉激活模式及性别差异,为大规模言语运动控制研究及吞咽障碍评估提供了可扩展的客观工具。

Alisher Myrgyyassov, Bruce Xiao Wang, Yu Sun + 4 more2026-03-05🤖 cs.LG

Multi-Stage Music Source Restoration with BandSplit-RoFormer Separation and HiFi++ GAN

本文介绍了 CP-JKU 团队为 ICASSP 2025 音乐源恢复挑战赛提出的系统,该系统通过结合采用三阶段课程学习策略的 BandSplit-RoFormer 分离模型与从通用专家演化为八个乐器特定专家的 HiFi++ GAN 波形恢复器,实现了从混音母带中高质量恢复原始乐器分轨的目标。

Tobias Morocutti, Emmanouil Karystinaios, Jonathan Greif + 1 more2026-03-05🤖 cs.LG