Trade-offs between structural richness and communication efficiency in music network representations

该研究通过构建八种不同特征编码的钢琴音乐网络,揭示了结构丰富性与通信效率之间的权衡:单一特征编码虽能降低模型误差但导致高熵率的不确定性,而多特征编码虽细化状态空间却增加了模型误差,表明特征选择直接决定了音乐网络的不确定性分布及其作为听众预期代理的合理性。

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

本文提出了一种名为 Dolphin 的高效音视频语音分离方法,通过双路径轻量级视频编码器 DP-LipCoder 将唇部运动转化为离散语义令牌,并结合多尺度全局 - 局部注意力机制的轻量级分离网络,在显著降低参数量、计算量和推理延迟的同时,实现了超越现有最先进模型的分离质量。

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

该论文提出了一种自适应模态平衡动态语义图差分网络(AMB-DSGDN),通过构建多模态子图、引入差分图注意力机制以滤除噪声并保留关键信号,以及设计自适应模态平衡机制防止主导模态压制,从而有效解决多模态对话情感识别中情感依赖建模不足和模态融合失衡的问题。

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

该论文提出了名为 PRoADS 的基于音频扩散模型的生成式隐写框架,通过正交矩阵投影嵌入秘密信息,并引入潜空间优化与反向欧拉反演技术以最小化重构误差,从而在 64 kbps MP3 压缩下实现了仅 0.15% 的极低误码率,展现出卓越的鲁棒性与安全性。

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

该论文提出了名为 Geo-ATBench 的地理空间音频标注基准及 GeoFusion-AT 融合框架,旨在通过引入地理信息系统提供的语义上下文(如兴趣点)来辅助多标签音频识别,从而有效解决仅靠音频波形难以区分的声学混淆问题,并验证了该方法在性能上能与人类听辨水平对齐。

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

该论文首先提出了一种模型无关的评估协议,揭示了当前语音感知大语言模型在说话人验证任务中表现薄弱,随后提出了一种通过注入冻结的 ECAPA-TDNN 说话人嵌入并仅训练 LoRA 适配器的轻量级增强方法,使大语言模型在保留自然语言接口的同时实现了接近专用系统的说话人验证性能。

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

本文介绍了 OSUM-Pangu,这是一个基于 OpenPangu-7B 大语言模型并在昇腾 NPU 全栈非 CUDA 环境下构建的开源多维语音理解基础模型,其通过分阶段训练策略实现了与主流 GPU 模型相当的任务准确率,为开源语音社区提供了可复现的非 CUDA 基准。

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

本文介绍了 VoxCare 系统,该系统利用可穿戴设备在实时不存储原始音频的前提下,通过提取声学特征和语音基础模型指导的框架,对医院医护人员的自然沟通行为进行量化分析,从而揭示沟通模式与工作压力及负荷之间的关系,为优化医疗交付提供数据支持。

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs