Evaluating Parkinson's Disease Detection in Anonymized Speech: A Performance and Acoustic Analysis

该研究通过评估两种说话人匿名化技术在西班牙语数据集上的表现,发现虽然 STT-TTS 因消除韵律信息而严重损害帕金森病检测能力,但 kNN-VC 因能保留宏观韵律特征,仅使检测性能轻微下降,从而证明了在保护隐私的同时实现有效帕金森病检测的可行性。

Carlos Franzreb, Francisco Teixeira, Ben Luks, Sebastian Möller, Alberto AbadTue, 10 Ma💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

该论文发布了首个尼泊尔语(Newari)5.39 小时人工转写天城文语音语料库"Nw\=ach\=a Mun\=a",并证明在超低资源自动语音识别任务中,利用地理和语言邻近的尼泊尔语进行迁移学习,能以更少的参数量达到与大规模多语言模型相当的性能。

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna BalTue, 10 Ma💬 cs.CL

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

本文提出了名为 MambaDance 的新方法,通过利用 Mamba 架构替代 Transformer 构建两阶段扩散模型,并结合高斯节拍表示来显式引导解码,从而在 AIST++ 和 FineDance 数据集上生成了从短到长序列均能精准捕捉舞蹈节奏性与音乐同步性的逼真舞蹈动作。

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon JooTue, 10 Ma💻 cs

WhispEar: A Bi-directional Framework for Scaling Whispered Speech Conversion via Pseudo-Parallel Whisper Generation

本文提出了名为 WhispEar 的双向框架,通过统一语义表示实现正常语音到耳语的零样本伪平行数据生成,从而利用大规模数据增强显著提升了耳语转正常语音的转换性能,并发布了迄今最大的中英双语耳语 - 正常语音平行语料库。

Zihao Fang, Yingda Shen, Zifan Guan, Tongtong Song, Zhenyi Liu, Zhizheng WuTue, 10 Ma💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

该论文针对现有语音情感识别方法过度简化情感模糊性的问题,提出了一种将模糊情感识别重构为分布推理任务的框架,通过引入对齐人类感知分布的目标和结构化思维链监督,显著提升了大型音频语言模型在 IEMOCAP 和 CREMA-D 数据集上的情感预测能力。

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting DangTue, 10 Ma💻 cs

Are Deep Speech Denoising Models Robust to Adversarial Noise?

该论文指出,尽管深度语音降噪(DNS)模型被广泛应用于高安全场景,但通过添加人耳难以察觉的对抗性噪声即可使其输出变为无法理解的乱码,且经专家验证和主观测试证实了攻击的有效性与隐蔽性,从而强调了在将其用于安全关键应用前必须采取实际防御措施。

Will Schwarzer, Neel Chaudhari, Philip S. Thomas, Andrea Fanelli, Xiaoyu LiuThu, 12 Ma⚡ eess