cs.SD 篇论文 | Gist.Science

Trade-offs between structural richness and communication efficiency in music network representations

该研究通过构建八种不同特征编码的钢琴音乐网络，揭示了结构丰富性与通信效率之间的权衡：单一特征编码虽能降低模型误差但导致高熵率的不确定性，而多特征编码虽细化状态空间却增加了模型误差，表明特征选择直接决定了音乐网络的不确定性分布及其作为听众预期代理的合理性。

Lluc Bono Rosselló, Robert Jankowski, Hugues Bersini, Marián Boguñá, M. Ángeles SerranoThu, 12 Ma🧬 q-bio

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

本文提出了一种名为 Dolphin 的高效音视频语音分离方法，通过双路径轻量级视频编码器 DP-LipCoder 将唇部运动转化为离散语义令牌，并结合多尺度全局 - 局部注意力机制的轻量级分离网络，在显著降低参数量、计算量和推理延迟的同时，实现了超越现有最先进模型的分离质量。

Kai Li, Kejun Gao, Xiaolin HuThu, 12 Ma💻 cs

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

本文提出了一种名为 HyWA 的新方法，利用超网络为语音活动检测（VAD）模型中的特定层生成个性化权重，从而在保持架构统一的同时，显著提升了个性化语音活动检测（PVAD）的平均精度并优化了部署效率。

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi NiaThu, 12 Ma⚡ eess

Evaluation of Audio Compression Codecs

该论文主张用户在选用音频压缩编解码器时不应仅关注压缩效率，而应结合压缩性能测量、可视化分析及PEAQ评分等多维度评估其感知音质，从而为选择数字音频压缩方案提供依据。

Thien T. Duong, Jan P. SpringerThu, 12 Ma💻 cs

AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

该论文提出了一种自适应模态平衡动态语义图差分网络（AMB-DSGDN），通过构建多模态子图、引入差分图注意力机制以滤除噪声并保留关键信号，以及设计自适应模态平衡机制防止主导模态压制，从而有效解决多模态对话情感识别中情感依赖建模不足和模态融合失衡的问题。

Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin LiThu, 12 Ma🤖 cs.AI

nlm: Real-Time Non-linear Modal Synthesis in Max

本文介绍了名为 nlm 的 Max 外部插件集，它通过 C++ 实现，能够高效地实时进行弦、膜和板的非线性模态合成，并支持参数交互控制、自定义模态数据加载及多通道输出，从而降低了作曲家、表演者和声音设计师探索非线性模态合成表现力的门槛。

Rodrigo Diaz, Rodrigo Constanzo, Mark SandlerThu, 12 Ma⚡ eess

ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA

ID-LoRA 是一种基于 In-Context LoRA 技术的新型音视频联合生成方法，它通过引入负向时间位置编码和身份引导机制，在仅需单张参考图像和短音频片段的情况下，实现了由文本提示驱动的、视觉外观与说话风格高度同步且一致的人物个性化生成。

Aviad Dahan, Moran Yanuka, Noa Kraicer, Lior Wolf, Raja GiryesThu, 12 Ma💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

该论文提出了名为 PRoADS 的基于音频扩散模型的生成式隐写框架，通过正交矩阵投影嵌入秘密信息，并引入潜空间优化与反向欧拉反演技术以最小化重构误差，从而在 64 kbps MP3 压缩下实现了仅 0.15% 的极低误码率，展现出卓越的鲁棒性与安全性。

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen RenThu, 12 Ma💻 cs

NasoVoce: A Nose-Mounted Low-Audibility Speech Interface for Always-Available Speech Interaction

NasoVoce 是一种安装在眼镜鼻托处的新型语音交互界面，它通过融合麦克风与振动传感器的互补信号，在嘈杂环境中实现了对低音量及耳语的高鲁棒性、隐蔽且持续的语音识别。

Jun Rekimoto, Yu Nishimura, Bojian YangThu, 12 Ma🤖 cs.AI

FireRedASR2S: A State-of-the-Art Industrial-Grade All-in-One Automatic Speech Recognition System

本文介绍了 FireRedASR2S，这是一个集成了语音识别、语音活动检测、语言识别和标点预测四大模块的工业级全功能自动语音识别系统，其在多项基准测试中均取得了超越现有主流模型的 SOTA 性能。

Kaituo Xu, Yan Jia, Kai Huang, Junjie Chen, Wenpeng Li, Kun Liu, Feng-Long Xie, Xu Tang, Yao HuThu, 12 Ma⚡ eess

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

本文提出了 MoXaRt，一种利用视听线索实时分离复杂 XR 环境中多声源的系统，通过级联架构将语音理解能力提升了 36.2% 并显著降低了用户的认知负荷。

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh KowdleThu, 12 Ma💻 cs

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

本文提出了 G-STAR，一种将时间感知说话人追踪模块与语音大语言模型转录骨干相结合的端到端系统，旨在解决长篇幅、多说话人重叠语音场景下，在保持会议级说话人身份一致性的同时生成带时间戳和说话人标签的转录文本的问题。

Jing Peng, Ziyi Chen, Haoyu Li, Yucheng Wang, Duo Ma, Mengtian Li, Yunfan Du, Dezhu Xu, Kai Yu, Shuai WangThu, 12 Ma⚡ eess

Distilling LLM Semantic Priors into Encoder-Only Multi-Talker ASR with Talker-Count Routing

本文提出了一种仅编码器多说话人语音识别框架，通过将大语言模型的语义先验蒸馏至编码器并结合说话人数量路由机制，在保持快速推理的同时显著提升了复杂重叠场景下的识别性能。

Hao Shi, Yusuke Fujita, Roman Koshkin, Mengjie Zhao, Yuan Gao, Lianbo Liu, Yui SudoThu, 12 Ma💻 cs

Geo-ATBench: A Benchmark for Geospatial Audio Tagging with Geospatial Semantic Context

该论文提出了名为 Geo-ATBench 的地理空间音频标注基准及 GeoFusion-AT 融合框架，旨在通过引入地理信息系统提供的语义上下文（如兴趣点）来辅助多标签音频识别，从而有效解决仅靠音频波形难以区分的声学混淆问题，并验证了该方法在性能上能与人类听辨水平对齐。

Yuanbo Hou, Yanru Wu, Qiaoqiao Ren, Shengchen Li, Stephen Roberts, Dick BotteldoorenThu, 12 Ma⚡ eess

AlphaFlowTSE: One-Step Generative Target Speaker Extraction via Conditional AlphaFlow

本文提出了 AlphaFlowTSE，一种基于条件 AlphaFlow 的单步生成式目标说话人提取模型，它通过混合到目标的均值速度传输和区间一致性师生目标，在消除辅助混合比预测的同时降低了延迟并提升了真实场景下的泛化能力。

Duojia Li, Shuhan Zhang, Zihan Qian, Wenxuan Wu, Shuai Wang, Qingyang Hong, Lin Li, Haizhou LiThu, 12 Ma🤖 cs.AI

Probabilistic Verification of Voice Anti-Spoofing Models

本文提出了 PV-VASM，一种模型无关的概率框架，用于在文本转语音、语音克隆及参数信号变换等场景下验证语音反欺骗模型的鲁棒性，并推导了误分类概率的理论上限以应对未见过的生成技术。

Evgeny Kushnir, Alexandr Kozodaev, Dmitrii Korzh, Mikhail Pautov, Oleg Kiriukhin, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

本文提出了 HIR-SDD 框架，通过结合大型音频语言模型与基于新标注数据集的链式思维推理，实现了具有可解释性且泛化能力更强的语音深度伪造检测。

Artem Dvirniak, Evgeny Kushnir, Dmitrii Tarasov, Artem Iudin, Oleg Kiriukhin, Mikhail Pautov, Dmitrii Korzh, Oleg Y. RogovThu, 12 Ma🤖 cs.AI

Speaker Verification with Speech-Aware LLMs: Evaluation and Augmentation

该论文首先提出了一种模型无关的评估协议，揭示了当前语音感知大语言模型在说话人验证任务中表现薄弱，随后提出了一种通过注入冻结的 ECAPA-TDNN 说话人嵌入并仅训练 LoRA 适配器的轻量级增强方法，使大语言模型在保留自然语言接口的同时实现了接近专用系统的说话人验证性能。

Thomas Thebaud, Yuzhe Wang, Laureano Moro-Velazquez, Jesus Villalba-Lopez, Najim DehakThu, 12 Ma🤖 cs.AI

OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

本文介绍了 OSUM-Pangu，这是一个基于 OpenPangu-7B 大语言模型并在昇腾 NPU 全栈非 CUDA 环境下构建的开源多维语音理解基础模型，其通过分阶段训练策略实现了与主流 GPU 模型相当的任务准确率，为开源语音社区提供了可复现的非 CUDA 基准。

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei XieThu, 12 Ma💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

本文介绍了 VoxCare 系统，该系统利用可穿戴设备在实时不存储原始音频的前提下，通过提取声学特征和语音基础模型指导的框架，对医院医护人员的自然沟通行为进行量化分析，从而揭示沟通模式与工作压力及负荷之间的关系，为优化医疗交付提供数据支持。

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth NarayananThu, 12 Ma💻 cs