RAF: Relativistic Adversarial Feedback For Universal Speech Synthesis

该论文提出了一种名为 RAF(相对论对抗反馈)的新型训练目标,通过利用语音自监督学习模型辅助判别器并采用相对论配对策略,显著提升了 GAN 语音合成器在域内保真度与未见场景下的泛化能力,且实验表明 RAF 训练的 BigVGAN-base 仅用 12% 的参数即可在感知质量上超越传统 LSGAN 训练的 BigVGAN。

Yongjoon Lee, Jung-Woo ChoiFri, 13 Ma⚡ eess

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

该研究通过引入包含 12 名参与者 2780 条语句的新数据集,利用面部和颈部表面肌电信号(sEMG)成功实现了在发声与无声语音任务中对情绪(特别是挫败感)的可靠解码,证明了肌电特征在无声语音接口中感知情绪的有效性。

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. SchullerFri, 13 Ma⚡ eess

Dr. SHAP-AV: Decoding Relative Modality Contributions via Shapley Attribution in Audio-Visual Speech Recognition

本文提出了 Dr. SHAP-AV 框架,利用 Shapley 值从全局、生成动态及时序对齐三个维度深入分析音频 - 视觉语音识别(AVSR)中的模态贡献,揭示了模型在噪声下虽转向视觉依赖但仍保持显著音频偏置的机制,并主张将 Shapley 归因作为 AVSR 诊断的标准方法。

Umberto Cappellazzo, Stavros Petridis, Maja PanticFri, 13 Ma⚡ eess