eess.AS 篇论文 | Gist.Science

Acoustic and Semantic Modeling of Emotion in Spoken Language

该论文提出了一种联合建模语音中声学特征与语义信息的框架，通过情感感知表示学习、对话场景下的情感识别以及基于文本无关的非平行语音到语音情感风格迁移，显著提升了情感理解与合成的能力。

Soumya DuttaWed, 11 Ma⚡ eess

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

本文提出了 SPAR-K 框架，通过一种模态感知的交替深度调度策略（即大部分语音令牌在中间层提前退出，并周期性插入全深度“刷新”步骤），在几乎不降低语音转录准确率、感知质量和问答精度的前提下，显著降低了交错式语音语言模型的推理计算成本。

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

该研究通过系统评估和引入过渡矩阵框架，揭示了对比解码在修正大音频语言模型“误报无音频”或“不确定性猜测”类错误方面的有效性及其对模型架构的依赖性，从而为根据基线错误特征选择最合适的增强策略提供了明确指导。

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

StuPASE: Towards Low-Hallucination Studio-Quality Generative Speech Enhancement

本文提出了基于 PASE 的 StuPASE 模型，通过采用干声目标微调及用流匹配模块替代生成对抗网络，在保持低幻觉特性的同时实现了强噪声和混响条件下的录音室级语音增强质量。

Xiaobin Rong, Jun Gao, Zheng Wang, Mansur Yesilbursa, Kamil Wojcicki, Jing LuWed, 11 Ma⚡ eess

Physics-Informed Neural Engine Sound Modeling with Differentiable Pulse-Train Synthesis

本文提出了一种名为脉冲串谐振器（PTR）的可微分合成架构，通过直接建模基于物理的排气脉冲序列及其在谐振器中的传播，实现了比传统谐波加噪声基线模型更准确且具备物理可解释性的引擎声音合成。

Robin Doerfler, Lonce WyseWed, 11 Ma🤖 cs.AI

End-to-End Direction-Aware Keyword Spotting with Spatial Priors in Noisy Environments

该论文提出了一种利用空间编码器和方向先验嵌入的端到端多通道关键词检测框架，通过联合优化空间线索与语音特征，显著提升了复杂噪声环境下的检测鲁棒性。

Rui Wang, Zhifei Zhang, Yu Gao, Xiaofeng Mou, Yi XuWed, 11 Ma⚡ eess

A Fast Solver for Interpolating Stochastic Differential Equation Diffusion Models for Speech Restoration

该论文通过建立包含 SGMSE+ 的插值随机微分方程（iSDE）形式化框架，并提出了一种新型求解器，使得语音恢复任务中的扩散模型仅需约 10 次神经网络评估即可实现快速采样。

Bunlong Lay, Timo GerkmannWed, 11 Ma⚡ eess

Speech-Omni-Lite: Portable Speech Interfaces for Vision-Language Models

本文提出了 Speech-Omni-Lite，一种通过冻结预训练视觉语言骨干网络并仅训练轻量级插件模块，利用低成本构建的数据策略，在无需大规模多模态数据的情况下实现高效语音理解与生成且保持原有视觉语言性能的框架。

Dehua Tao, Xuan Luo, Daxin Tan, Kai Chen, Lanqing Hong, Jing Li, Ruifeng Xu, Xiao ChenWed, 11 Ma⚡ eess

Finetuning a Text-to-Audio Model for Room Impulse Response Generation

本文提出了一种通过微调预训练文本到音频模型来生成房间脉冲响应（RIR）的新方法，利用视觉语言模型构建文本-RIR 配对数据并引入上下文学习策略，有效解决了数据稀缺问题，生成的 RIR 在主观听感测试和下游自动语音识别任务中均表现出良好的真实性与实用性。

Kirak Kim, Sungyoung KimWed, 11 Ma⚡ eess

MUGEN: Evaluating and Improving Multi-audio Understanding of Large Audio-Language Models

该论文提出了 MUGEN 基准以评估大音频语言模型的多音频理解能力，揭示了其在并发输入增加时性能显著下降的瓶颈，并发现结合音频排列自洽性与思维链策略可显著提升模型表现。

Chih-Kai Yang, Yun-Shao Tsai, Yu-Kai Guo, Ping-Le Tsai, Yen-Ting Piao, Hung-Wei Chen, Ting-Lin Hsiao, Yun-Man Hsu, Ke-Han Lu, Hung-yi LeeWed, 11 Ma🤖 cs.AI

A Semi-spontaneous Dutch Speech Dataset for Speech Enhancement and Speech Recognition

本文介绍了名为 DRES 的 1.5 小时荷兰语半自发语音数据集，该数据集在嘈杂的公共室内环境中录制，旨在评估自动语音识别和语音增强模型在真实场景下的性能，研究发现尽管部分模型表现良好，但现代单通道语音增强技术并未显著提升识别效果。

Dimme de Groot, Yuanyuan Zhang, Jorge Martinez, Odette ScharenborgWed, 11 Ma⚡ eess

Distributed Multichannel Wiener Filtering for Wireless Acoustic Sensor Networks

本文提出了一种适用于全连接无线声学传感器网络的分布式多通道维纳滤波（dMWF）算法，该算法无需迭代即可在节点观测源不同的情况下实现与集中式系统最优性能匹配的语音估计，并显著优于现有的迭代式 DANSE 算法。

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Pourya Behmandpoor, Henri Gode, Marc MoonenWed, 11 Ma⚡ eess

Multimodal Laryngoscopic Video Analysis for Assisted Diagnosis of Vocal Fold Paralysis

本文提出了一种名为 MLVAS 的多模态喉镜视频分析系统，该系统通过融合音频关键词检测与基于扩散模型优化的视频声门分割技术，自动提取关键视频片段并生成客观的声带运动指标，从而辅助临床医生对声带麻痹进行更可靠的诊断。

Yucong Zhang, Xin Zou, Jinshan Yang, Wenjun Chen, Juan Liu, Faya Liang, Ming LiTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

本文提出了 ExpGest 框架，这是一种基于扩散模型的首创性全肢体手势生成方法，通过融合音频与文本信息、引入噪声情感分类器及潜在空间对齐技术，有效解决了现有方法在情感表达、语义一致性和全身运动自然度方面的不足，实现了更具表现力和可控性的演讲者动作生成。

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

本文介绍了 DCASE 2025 挑战赛中的第五项任务，即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准，旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展，使其具备接近人类水平的感知与交互能力。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

eess.AS