Trade-offs between structural richness and communication efficiency in music network representations

该研究通过构建八种不同特征编码的钢琴音乐网络,揭示了结构丰富性与通信效率之间的权衡:单一特征编码虽能降低模型误差但导致高熵率的不确定性,而多特征编码虽细化状态空间却增加了模型误差,表明特征选择直接决定了音乐网络的不确定性分布及其作为听众预期代理的合理性。

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

该论文提出了名为 Geo-ATBench 的地理空间音频标注基准及 GeoFusion-AT 融合框架,旨在通过引入地理信息系统提供的语义上下文(如兴趣点)来辅助多标签音频识别,从而有效解决仅靠音频波形难以区分的声学混淆问题,并验证了该方法在性能上能与人类听辨水平对齐。

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

MOS-Bias: From Hidden Gender Bias to Gender-Aware Speech Quality Assessment

该论文首次系统揭示了语音质量评估中存在的性别偏差(男性评分普遍高于女性),并提出了通过抽象二元组嵌入学习性别特定评分模式的性别感知模型,以解决现有自动评分模型偏向男性感知标准的问题并提升评估的公平性与准确性。

Wenze Ren, Yi-Cheng Lin, Wen-Chin Huang, Erica Cooper, Ryandhimas E. Zezario, Hsin-Min Wang, Hung-yi Lee, Yu TsaoThu, 12 Ma⚡ eess

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

该论文提出了一种名为 CSP-FT 的特征特定部分微调策略,通过动态分析并仅微调对情感和说话人信息贡献最大及最小的两层参数,在仅更新约 8% 参数的情况下实现了比全量微调快 2 倍的训练速度,同时显著提升了 LLM 基语音合成模型在未见领域的克隆保真度、发音清晰度并缓解了灾难性遗忘。

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

The trajectoRIR Database: Room Acoustic Recordings Along a Trajectory of Moving Microphones

本文介绍了 trajectoRIR 数据库,该数据库通过在受控房间内沿 L 形轨迹移动多种麦克风阵列(包括假头、一阶 Ambisonics 及各类阵列)并结合静止麦克风,采集了包含 8648 个静止房间脉冲响应及多种动态音频信号的综合数据集,旨在支持声源定位、声场重建等声学信号处理任务。

Stefano Damiano, Kathleen MacWilliam, Valerio Lorenzoni, Thomas Dietzen, Toon van WaterschootMon, 09 Ma⚡ eess

ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction

该论文提出了 ParaS2S 框架,通过构建 ParaS2SBench 基准、设计抗风格幻觉的多阶段自动评估器以及采用强化学习策略,有效解决了现有语音到语音模型在情感、语调等副语言线索感知与响应方面的不足,显著提升了对话内容与风格的适配性。

Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui WuMon, 09 Ma⚡ eess

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架,通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征,从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

该论文提出了一种结合多分支 CNN 特征提取与增强型 Legendre 记忆单元(LMU)的紧凑声学框架,并引入基于熵门控的校准后验集成融合策略,有效解决了跨域婴儿哭声分类中信号非平稳、标注稀缺及域偏移等挑战,显著提升了模型的泛化能力与实时部署性能。

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI