cs.SD 篇论文 | Gist.Science

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

本文提出了基于 Gram 矩阵的纹理共振检索（TRR）方法，通过利用 Wav2Vec2 激活的投影 Gram 矩阵来弥合用户感知意图与低层音频效果参数之间的语义鸿沟，并在吉他效果基准测试中证明了其在生成可编辑插件配置方面的优越性能。

Shihao He, Yihan Xia, Fang Liu, Taotao Wang, Shengli ZhangWed, 11 Ma🤖 cs.AI

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

本文提出了一种名为脉冲串谐振器（PTR）的可微分合成架构，通过直接建模基于物理的排气脉冲序列及其在谐振器中的传播，实现了比传统谐波加噪声基线模型更准确且具备物理可解释性的引擎声音合成。

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

该论文提出了 MUGEN 基准以评估大音频语言模型的多音频理解能力，揭示了其在并发输入增加时性能显著下降的瓶颈，并发现结合音频排列自洽性与思维链策略可显著提升模型表现。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

EmoSURA: Towards Accurate Evaluation of Detailed and Long-Context Emotional Speech Captions

本文提出了 EmoSURA 评估框架，通过将情感语音描述分解为原子感知单元并结合音频验证机制，有效解决了传统指标和 LLM 在长文本情感语音字幕评估中的语义捕捉不足与推理不一致问题，并配套推出了标准化基准 SURABench 以提升评估的准确性与可靠性。

Xin Jing, Andreas Triantafyllopoulos, Jiadong Wang, Shahin Amiriparian, Jun Luo, Björn SchullerWed, 11 Ma💻 cs

SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases

本文提出了名为 SCENEBench 的音频理解基准，旨在通过评估背景音理解、噪声定位、跨语言语音理解及发声特征识别等四大真实世界任务，填补大音频语言模型在非语音内容理解方面的研究空白，并揭示了当前模型在这些任务中存在的显著性能差距。

Laya Iyer, Angelina Wang, Sanmi KoyejoWed, 11 Ma🤖 cs.AI

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

本文提出了一种名为 MLVAS 的多模态喉镜视频分析系统，该系统通过融合音频关键词检测与基于扩散模型优化的视频声门分割技术，自动提取关键视频片段并生成客观的声带运动指标，从而辅助临床医生对声带麻痹进行更可靠的诊断。

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

本文提出了 ExpGest 框架，这是一种基于扩散模型的首创性全肢体手势生成方法，通过融合音频与文本信息、引入噪声情感分类器及潜在空间对齐技术，有效解决了现有方法在情感表达、语义一致性和全身运动自然度方面的不足，实现了更具表现力和可控性的演讲者动作生成。

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

本文介绍了 DCASE 2025 挑战赛中的第五项任务，即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准，旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展，使其具备接近人类水平的感知与交互能力。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

本文提出了 BemaGANv2，一种通过引入 AMP 生成模块和 MED 判别器，并系统评估多种判别器组合策略，以实现高保真、长时程音频生成（如文本转音乐/音频）的先进 GAN 语音合成器。

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul KwonTue, 10 Ma🤖 cs.LG

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

本文提出了名为 WaLi 的攻击方法，利用 HVAC 系统中现有的压力传感器，通过复数 Conformers 和全局注意力机制从低分辨率噪声数据中重建出可懂度较高的人类语音，揭示了此类传感器前所未有的隐私泄露风险并提供了相应的防御方案。

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaTue, 10 Ma💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

本文提出了名为 SUBARU 的框架，通过在助听设备中联合采用亚奈奎斯特采样率和低比特分辨率模数转换，并结合宽带重建方法，在显著降低功耗的同时实现了嘈杂环境下的高效多模态语音增强。

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi BaruaTue, 10 Ma💻 cs

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

本文提出了名为 ECHO 的新型基础模型，通过融合频带分割架构与频率位置编码，实现了对任意采样率和可变长度机器信号（如声学、振动及工业传感器数据）的高效建模，并在异常检测与故障分类任务中取得了领先性能。

Yucong Zhang, Juan Liu, Ming LiTue, 10 Ma🤖 cs.LG

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

该论文提出了首个基于 LibriTTS-R 的公开语音印象（VI）语料库 LibriTTS-VI，并设计了通过双 utterance 解耦训练及无参考音频控制的新方法，有效解决了语音印象控制中缺乏公开数据和印象泄露的问题，显著提升了数值化语音印象控制的精度。

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki KumakuraTue, 10 Ma💻 cs

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

该论文提出了一种通过增加池化和解码器步长，将 X-Codec-2.0 的潜在码率从 50 Hz 降至 25 Hz 同时将采样率提升至 24 kHz 的简单有效改进方案，在保持核心架构不变的情况下显著提升了多语言语音的感知质量与效率。

Husein ZolkepliTue, 10 Ma💬 cs.CL

Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

该论文利用机械可解释性识别出大型音频语言模型中的“听觉”注意力头，并通过在推理阶段对最终表示进行激活干预（音频 - 静音导向），在不更新参数的情况下将模型在 MMAU 基准上的准确率提升了高达 8.0 个百分点，有效解决了模型过度依赖文本先验而忽视音频证据的问题。

Neta Glazer, Lenny Aharon, Ethan FetayaTue, 10 Ma💻 cs

Adaptive Discovery of Interpretable Audio Attributes with Multimodal LLMs for Low-Resource Classification

该论文提出了一种利用多模态大语言模型在 AdaFlock 框架中自适应发现可解释音频属性的方法，通过以机器替代人工显著提升了属性发现效率，并在低资源音频分类任务中实现了优于直接预测的准确率与仅需 11 分钟的高效训练。

Kosuke Yoshimura, Hisashi KashimaTue, 10 Ma🤖 cs.LG

Toward Multimodal Industrial Fault Analysis: A Single-Speed Chain Conveyor Dataset with Audio and Vibration Signals

本文介绍了一个包含音频和振动多模态信号的单速链式输送机工业故障数据集，旨在通过标准化评估协议和基线模型，支持复杂工况下的系统级故障检测与多模态融合研究。

Zhang Chen, Yucong Zhang, Xiaoxiao Miao, Ming LiTue, 10 Ma💻 cs

Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

该研究提出了一种基于 SonicGuard 可穿戴传感器和 Audio Spectrogram Transformer 模型的自动化肠音分割与分类系统，通过为健康人和患者分别训练专用模型，实现了高精度的肠音模式识别，显著减少了人工标注时间并为胃肠道功能提供了客观的定量评估工具。

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

该论文提出了一种名为 VASR 的多模态推理框架，通过构建音频 - 视觉思维链（AV-CoT）显式地建立声学信号与视觉证据（如场景和屏幕文字）之间的中间对齐，从而有效缓解单模态主导问题，在包含丰富视觉上下文的语音识别（CAVSR）任务中实现了最先进性能。

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Fast and Flexible Audio Bandwidth Extension via Vocos

本文提出了一种基于 Vocos 的音频带宽扩展模型，该模型利用神经声码器骨干网络生成缺失的高频内容，并通过轻量级滤波器平滑融合，在 NVIDIA A100 GPU 和 CPU 上均实现了极低延迟的实时高质量音频增强。

Yatharth SharmaTue, 10 Ma🤖 cs.LG