cs.SD 篇论文 | Gist.Science

Training Dynamics-Aware Multi-Factor Curriculum Learning for Target Speaker Extraction

本文提出了一种训练动态感知的多因素课程学习框架，通过引入 TSE-Datamap 可视化分析模型在不同训练阶段的置信度与变异性，将数据划分为易学、模糊和困难三类区域，从而实现对信噪比、说话人数量、重叠率及合成/真实数据比例等多因素联合调度，显著提升了复杂多说话人场景下的目标说话人提取性能。

Yun Liu, Xuechen Liu, Xiaoxiao Miao + 1 more2026-03-06💻 cs

TW-Sound580K: A Regional Audio-Text Dataset with Verification-Guided Curation for Localized Audio-Language Modeling

本文提出了通过“验证 - 生成 - 批判”（VGC）流程构建的台湾方言音频文本数据集 TW-Sound580K，并基于此开发了 Tai-LALM 模型，通过引入动态双 ASR 仲裁策略显著提升了模型在本地化语音任务上的表现。

Hao-Hui Xie, Ho-Lam Chung, Yi-Cheng Lin + 4 more2026-03-06💻 cs

PolyBench: A Benchmark for Compositional Reasoning in Polyphonic Audio

本文提出了名为 PolyBench 的新基准，旨在评估大音频语言模型在复调音频中对多事件并发及其关系的组合推理能力，并揭示了现有模型在此类任务中普遍存在的性能瓶颈。

Yuanjian Chen, Yang Xiao, Han Yin + 3 more2026-03-06💻 cs

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

本文提出了名为 ASR-TRA 的新型测试时强化适应框架，通过引入可学习解码提示、温度控制随机解码及基于音文语义对齐的奖励机制，有效克服了传统测试时适应方法中的确认偏差问题，显著提升了自动语音识别系统在噪声和口音等分布偏移场景下的鲁棒性与准确率。

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

本文提出了 SarcasmMiner，一种基于强化学习的后训练框架，通过双轨蒸馏策略和分组相对策略优化（GRPO）解决多模态讽刺检测中的幻觉问题，在 MUStARD++ 数据集上将 F1 分数从 68.23% 提升至 70.22%。

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

本文提出了 WavSLM，一种通过量化和蒸馏自监督 WavLM 表征至单一码本并优化自回归预测目标，从而在无文本监督下实现语义与声学信息统一建模的流式语音语言模型。

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings

本文提出了 SLICE 方法，通过将源自预训练编码器的退化条件嵌入注入到扩散模型的每一层（而非仅输入层），有效解决了现实世界中多种退化（如噪声、混响和非线性失真）同时存在时语音增强性能下降的问题。

Seokhoon Moon, Kyudan Jung, Jaegul Choo2026-03-06💻 cs

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

本文提出了 Latent-Mark，这是首个通过向神经编解码器的不变潜在空间嵌入水印，从而有效抵御神经重合成攻击并兼具传统信号处理鲁棒性与感知不可察觉性的零比特音频水印框架。

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou + 5 more2026-03-06🤖 cs.AI

Hierarchical Decoding for Discrete Speech Synthesis with Multi-Resolution Spoof Detection

本文提出了无需重新训练的 MSpoof-TTS 框架，通过多分辨率欺骗检测与分层解码策略，在推理阶段动态引导神经编解码语言模型生成更高质量、更鲁棒的零样本离散语音。

Junchuan Zhao, Minh Duc Vu, Ye Wang2026-03-06💻 cs

Building Enterprise Realtime Voice Agents from Scratch: A Technical Tutorial

本文提供了一份从零构建企业级实时语音代理的技术教程，通过系统分析指出原生端到端语音模型延迟过高，而采用流式级联架构（Deepgram 语音识别 + vLLM 流式 LLM 推理 + ElevenLabs 流式语音合成）是实现低延迟（P50 约 947ms）的关键，并发布了包含完整可运行代码的开源项目。

Jielin Qiu, Zixiang Chen, Liangwei Yang + 11 more2026-03-06💻 cs

Knowing When to Quit: Probabilistic Early Exits for Speech Separation

该论文提出了一种具备早期退出能力的语音分离与增强神经网络架构，并结合不确定性感知概率框架，实现了在不牺牲重建质量的前提下根据目标信噪比动态调整计算量，从而显著提升了在移动和异构设备上的部署效率。

Kenny Falkær Olsen, Mads Østergaard, Karl Ulbæk + 4 more2026-03-05🤖 cs.LG

MeanFlowSE: one-step generative speech enhancement via conditional mean flow

本文提出了 MeanFlowSE，一种通过直接学习轨迹上有限区间的平均速度来实现单步推理的生成式语音增强模型，在无需知识蒸馏的情况下显著降低了计算成本并保持了高保真度。

Duojia Li, Shenghui Lu, Hongchen Pan + 3 more2026-03-05🤖 cs.AI

LadderSym: A Multimodal Interleaved Transformer for Music Practice Error Detection

本文提出了 LadderSym，一种基于双流编码器与符号提示解码器的多模态交错 Transformer 模型，通过改进跨模态对齐并减少频率歧义，显著提升了音乐练习错误检测的 F1 分数。

Benjamin Shiue-Hal Chou, Purvish Jajal, Nick John Eliopoulos + 4 more2026-03-05🤖 cs.AI

Better audio representations are more brain-like: linking model-brain alignment with performance in downstream auditory tasks

该研究通过量化 36 种音频模型与大脑活动的对齐程度，发现自监督音频模型在下游任务中的性能提升与其对听觉皮层活动的预测能力呈强正相关，表明脑类表征是模型学习从自然音频中重建缺失信息时的涌现副产品。

Leonardo Pepino, Pablo Riera, Juan Kamienkowski + 1 more2026-03-05🤖 cs.LG

cs.SD