cs.SD 篇论文 | Gist.Science

Wave-like behaviour in (0,1) binary sequences

该论文从量子理论视角出发，将复波函数作为类比概率测度，对有限 (0,1) 二进制序列（特别是基因组序列）进行了扩展研究，揭示了其频谱特征与声波性质的相似性。

E. Canessa2026-03-10🔬 physics

Relationship between objective and subjective perceptual measures of speech in individuals with head and neck cancer

该研究通过分析大量头颈癌患者的数据，发现主观感知评估与客观声学测量之间存在显著关联，并建议单一的可懂度指标足以用于监测接受同步放化疗患者的言语功能。

Bence Mark Halpern, Thomas Tienkamp, Teja Rebernik + 4 more2026-03-10⚡ eess

A Large-Scale Probing Analysis of Speaker-Specific Attributes in Self-Supervised Speech Representations

该研究通过对 11 种自监督语音模型的大规模探测分析，揭示了其分层编码机制及深层层意外恢复说话人身份的特性，并发现中间层在捕捉动态韵律方面优于专用说话人嵌入，从而为选择可解释且任务最优的表示提供了指导。

Aemon Yat Fei Chiu, Kei Ching Fung, Roger Tsz Yeung Li + 2 more2026-03-06💻 cs

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

本文提出了 InterActHuman 框架，通过引入布局对齐的音频条件及掩码预测器，实现了多概念（包括多人与物体）在视频中的精确区域绑定与高质量交互动画生成，有效解决了现有方法无法处理多主体复杂交互的局限。

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Vevo2: A Unified and Controllable Framework for Speech and Singing Voice Generation

本文提出了 Vevo2，一个统一的语音与歌声生成框架，通过引入两种新型音频分词器及多阶段建模策略，有效解决了标注数据稀缺问题，实现了对文本、韵律、风格及音色的灵活可控生成，并在多种合成、转换与编辑任务中展现出卓越的泛化能力。

Xueyao Zhang, Junan Zhang, Yuancheng Wang + 5 more2026-03-06💻 cs

TSPC: A Two-Stage Phoneme-Centric Architecture for code-switching Vietnamese-English Speech Recognition

本文提出了一种名为 TSPC 的两阶段音素中心架构，通过以扩展越南语音素集为中间表示的混合语言建模方法，在低计算资源下显著提升了越南语 - 英语代码转换语音识别的准确率。

Tran Nguyen Anh, Truong Dinh Dung, Vo Van Nam + 1 more2026-03-06💻 cs

BabyHuBERT: Multilingual Self-Supervised Learning for Segmenting Speakers in Child-Centered Long-Form Recordings

本文提出了 BabyHuBERT，一个基于 1.3 万小时多语言儿童录音训练的自监督语音模型，其在区分目标儿童与不同说话者类型的任务中显著优于现有成人语音模型，有效解决了儿童中心长时录音分析中的语言差异挑战。

Théo Charlot, Tarek Kunze, Maxime Poli + 3 more2026-03-06💻 cs

SAM: A Mamba-2 State-Space Audio-Language Model

本文提出了集成音频编码器与 Mamba-2 骨干网络的 SAM 模型，通过系统分析揭示了联合微调、紧凑音频 Token 表示及指令监督对提升性能的关键作用，证明了其能以更少的参数实现媲美或超越更大规模 Transformer 模型的音频语言处理能力。

Taehan Lee, Jaehan Jung, Hyukjun Lee2026-03-06💻 cs

Noise-to-Notes: Diffusion-based Generation and Refinement for Automatic Drum Transcription

本文提出了名为 Noise-to-Notes (N2N) 的新框架，将自动鼓乐转录重新定义为基于扩散模型的生成式任务，通过引入退火伪 Huber 损失函数解决离散与连续值联合优化难题，并结合音乐基础模型特征显著提升了跨域鲁棒性，在多个基准测试中取得了最先进性能。

Michael Yeung, Keisuke Toyama, Toya Teramoto + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

本文提出了将薛定谔桥训练范式与 Mamba 架构相结合的 Schrödinger Bridge Mamba（SBM）模型，该模型仅需单步推理即可在联合去噪和去混响任务中超越现有强基线方法，同时保持适合流式处理的实时性。

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

该论文提出了一种融合能量自适应混合增强与帧级注意力机制的多损失学习框架，通过优化特征提取与损失函数组合，在四个主流数据集上实现了语音情感识别的先进性能。

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

MultiAPI Spoof: A Multi-API Dataset and Local-Attention Network for Speech Anti-spoofing Detection

该论文针对现有语音反伪造基准缺乏多样性的问题，提出了包含 30 种不同 API 生成语音的 MultiAPI Spoof 数据集及 API 溯源任务，并设计了引入局部注意力机制的 Nes2Net-LA 模型，在复杂多变的伪造场景下实现了最先进的检测性能与鲁棒性。

Xueping Zhang, Zhenshan Zhang, Yechen Wang + 3 more2026-03-06💻 cs

RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity

本文提出了 RA-QA 基准系统，通过构建包含 900 万条多样化问答对的标准化数据集及统一评估协议，旨在解决现有呼吸音频问答研究在模态、设备和问题类型等真实世界异质性方面评估不足的局限，并揭示了当前模型在此类复杂场景下的性能瓶颈。

Gaia A. Bertolino, Yuwei Zhang, Tong Xia + 2 more2026-03-06💻 cs

Fine-grained Soundscape Control for Augmented Hearing

本文提出了 Aurchestra 系统，这是首个在资源受限的助听设备上实现细粒度、实时声景控制的技术，它通过动态界面和实时多输出提取网络，允许用户像音频工程师一样独立调节环境中最多五个重叠声源的声音。

Seunghyun Oh, Malek Itani, Aseem Gauri + 1 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

本文介绍了 VoxKnesset，这是一个包含约 2300 小时、跨越 15 年且涵盖 393 位发言人的开源希伯来语议会演讲数据集，旨在通过基准测试揭示语音识别模型在长期老化条件下的性能退化，并推动对老龄化鲁棒性语音系统的研究。

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

Temporal Pooling Strategies for Training-Free Anomalous Sound Detection with Self-Supervised Audio Embeddings

本文针对训练无关的异常声音检测任务，系统评估了多种时间池化策略，并提出了一种结合相对偏差池化与广义均值池化的混合方法，在多个基准数据集上实现了超越现有训练系统及集成模型的最优性能。

Kevin Wilkinghoff, Sarthak Yadav, Zheng-Hua Tan2026-03-06💻 cs

When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper

本文通过实证研究揭示，尽管 Meta 的 SAM-Audio 模型能显著提升语音信号的感知质量，但将其作为预处理步骤应用于 Whisper 零样本语音识别时，反而会因信号与机器识别目标的不匹配而导致识别准确率（WER 和 CER）系统性下降。

Akif Islam, Raufun Nahar, Md. Ekramul Hamid2026-03-06💻 cs

WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

本文针对孟加拉语长语音识别与说话人分离任务，提出了一种结合 WhisperX 锚定与 Whisper 时间戳分块的 ASR 策略，并通过在竞赛数据集上微调 Pyannote 分割模型以优化重叠语音处理，从而显著降低了词错率和说话人分离错误率。

Aurchi Chowdhury, Rubaiyat -E-Zaman, Sk. Ashrafuzzaman Nafees2026-03-06💻 cs

Focus Then Listen: Exploring Plug-and-Play Audio Enhancer for Noise-Robust Large Audio Language Models

本文提出了一种名为“先聚焦后聆听”（FTL）的即插即用音频增强器，它通过分离语音与非语音信号并结合模态路由与融合机制，在不重新训练大音频语言模型的情况下显著提升了其在噪声环境下的鲁棒性。

Han Yin, Yang Xiao, Younghoo Kwon + 2 more2026-03-06💻 cs

The First Environmental Sound Deepfake Detection Challenge: Benchmarking Robustness, Evaluation, and Insights

本文介绍了首个环境声音深度伪造检测挑战赛，通过汇集 97 支参赛队伍和 1748 份有效提交，系统阐述了任务定义、数据集构建、评估协议及基线系统，并基于顶尖系统的架构与训练策略分析，为该领域未来的研究方向提供了关键见解。

Han Yin, Yang Xiao, Rohan Kumar Das + 2 more2026-03-06💻 cs