Towards Objective Gastrointestinal Auscultation: Automated Segmentation and Annotation of Bowel Sound Patterns

该研究提出了一种基于 SonicGuard 可穿戴传感器和 Audio Spectrogram Transformer 模型的自动化肠音分割与分类系统,通过为健康人和患者分别训练专用模型,实现了高精度的肠音模式识别,显著减少了人工标注时间并为胃肠道功能提供了客观的定量评估工具。

Zahra Mansour, Verena Uslar, Dirk Weyhe, Danilo Hollosi, Nils StrodthoffTue, 10 Ma🤖 cs.LG

Seeing the Context: Rich Visual Context-Aware Speech Recognition via Multimodal Reasoning

该论文提出了一种名为 VASR 的多模态推理框架,通过构建音频 - 视觉思维链(AV-CoT)显式地建立声学信号与视觉证据(如场景和屏幕文字)之间的中间对齐,从而有效缓解单模态主导问题,在包含丰富视觉上下文的语音识别(CAVSR)任务中实现了最先进性能。

Wenjie Tian, Mingchen Shao, Bingshen Mu, Xuelong Geng, Chengyou Wang, Yujie Liao, Zhixian Zhao, Ziyu Zhang, Jingbin Hu, Mengqi Wei, Lei XieTue, 10 Ma💻 cs

Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

该研究通过评估两种说话人匿名化技术在西班牙语数据集上的表现,发现虽然 STT-TTS 因消除韵律信息而严重损害帕金森病检测能力,但 kNN-VC 因能保留宏观韵律特征,仅使检测性能轻微下降,从而证明了在保护隐私的同时实现有效帕金森病检测的可行性。

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

本文提出了名为 WhispEar 的双向框架,通过统一语义表示实现正常语音到耳语的零样本伪平行数据生成,从而利用大规模数据增强显著提升了耳语转正常语音的转换性能,并发布了迄今最大的中英双语耳语 - 正常语音平行语料库。

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

该论文针对现有语音情感识别方法过度简化情感模糊性的问题,提出了一种将模糊情感识别重构为分布推理任务的框架,通过引入对齐人类感知分布的目标和结构化思维链监督,显著提升了大型音频语言模型在 IEMOCAP 和 CREMA-D 数据集上的情感预测能力。

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Are Deep Speech Denoising Models Robust to Adversarial Noise?

该论文指出,尽管深度语音降噪(DNS)模型被广泛应用于高安全场景,但通过添加人耳难以察觉的对抗性噪声即可使其输出变为无法理解的乱码,且经专家验证和主观测试证实了攻击的有效性与隐蔽性,从而强调了在将其用于安全关键应用前必须采取实际防御措施。

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess