Trade-offs between structural richness and communication efficiency in music network representations
该研究通过构建八种不同特征编码的钢琴音乐网络,揭示了结构丰富性与通信效率之间的权衡:单一特征编码虽能降低模型误差但导致高熵率的不确定性,而多特征编码虽细化状态空间却增加了模型误差,表明特征选择直接决定了音乐网络的不确定性分布及其作为听众预期代理的合理性。
163 篇论文
该研究通过构建八种不同特征编码的钢琴音乐网络,揭示了结构丰富性与通信效率之间的权衡:单一特征编码虽能降低模型误差但导致高熵率的不确定性,而多特征编码虽细化状态空间却增加了模型误差,表明特征选择直接决定了音乐网络的不确定性分布及其作为听众预期代理的合理性。
本文提出了一种名为 Dolphin 的高效音视频语音分离方法,通过双路径轻量级视频编码器 DP-LipCoder 将唇部运动转化为离散语义令牌,并结合多尺度全局 - 局部注意力机制的轻量级分离网络,在显著降低参数量、计算量和推理延迟的同时,实现了超越现有最先进模型的分离质量。
本文提出了一种名为 HyWA 的新方法,利用超网络为语音活动检测(VAD)模型中的特定层生成个性化权重,从而在保持架构统一的同时,显著提升了个性化语音活动检测(PVAD)的平均精度并优化了部署效率。
该论文主张用户在选用音频压缩编解码器时不应仅关注压缩效率,而应结合压缩性能测量、可视化分析及PEAQ评分等多维度评估其感知音质,从而为选择数字音频压缩方案提供依据。
该论文提出了一种自适应模态平衡动态语义图差分网络(AMB-DSGDN),通过构建多模态子图、引入差分图注意力机制以滤除噪声并保留关键信号,以及设计自适应模态平衡机制防止主导模态压制,从而有效解决多模态对话情感识别中情感依赖建模不足和模态融合失衡的问题。
本文介绍了名为 nlm 的 Max 外部插件集,它通过 C++ 实现,能够高效地实时进行弦、膜和板的非线性模态合成,并支持参数交互控制、自定义模态数据加载及多通道输出,从而降低了作曲家、表演者和声音设计师探索非线性模态合成表现力的门槛。
ID-LoRA 是一种基于 In-Context LoRA 技术的新型音视频联合生成方法,它通过引入负向时间位置编码和身份引导机制,在仅需单张参考图像和短音频片段的情况下,实现了由文本提示驱动的、视觉外观与说话风格高度同步且一致的人物个性化生成。
该论文提出了名为 PRoADS 的基于音频扩散模型的生成式隐写框架,通过正交矩阵投影嵌入秘密信息,并引入潜空间优化与反向欧拉反演技术以最小化重构误差,从而在 64 kbps MP3 压缩下实现了仅 0.15% 的极低误码率,展现出卓越的鲁棒性与安全性。
NasoVoce 是一种安装在眼镜鼻托处的新型语音交互界面,它通过融合麦克风与振动传感器的互补信号,在嘈杂环境中实现了对低音量及耳语的高鲁棒性、隐蔽且持续的语音识别。
本文介绍了 FireRedASR2S,这是一个集成了语音识别、语音活动检测、语言识别和标点预测四大模块的工业级全功能自动语音识别系统,其在多项基准测试中均取得了超越现有主流模型的 SOTA 性能。
本文提出了 MoXaRt,一种利用视听线索实时分离复杂 XR 环境中多声源的系统,通过级联架构将语音理解能力提升了 36.2% 并显著降低了用户的认知负荷。
本文提出了 G-STAR,一种将时间感知说话人追踪模块与语音大语言模型转录骨干相结合的端到端系统,旨在解决长篇幅、多说话人重叠语音场景下,在保持会议级说话人身份一致性的同时生成带时间戳和说话人标签的转录文本的问题。
本文提出了一种仅编码器多说话人语音识别框架,通过将大语言模型的语义先验蒸馏至编码器并结合说话人数量路由机制,在保持快速推理的同时显著提升了复杂重叠场景下的识别性能。
该论文提出了名为 Geo-ATBench 的地理空间音频标注基准及 GeoFusion-AT 融合框架,旨在通过引入地理信息系统提供的语义上下文(如兴趣点)来辅助多标签音频识别,从而有效解决仅靠音频波形难以区分的声学混淆问题,并验证了该方法在性能上能与人类听辨水平对齐。
本文提出了 AlphaFlowTSE,一种基于条件 AlphaFlow 的单步生成式目标说话人提取模型,它通过混合到目标的均值速度传输和区间一致性师生目标,在消除辅助混合比预测的同时降低了延迟并提升了真实场景下的泛化能力。
本文提出了 PV-VASM,一种模型无关的概率框架,用于在文本转语音、语音克隆及参数信号变换等场景下验证语音反欺骗模型的鲁棒性,并推导了误分类概率的理论上限以应对未见过的生成技术。
本文提出了 HIR-SDD 框架,通过结合大型音频语言模型与基于新标注数据集的链式思维推理,实现了具有可解释性且泛化能力更强的语音深度伪造检测。
该论文首先提出了一种模型无关的评估协议,揭示了当前语音感知大语言模型在说话人验证任务中表现薄弱,随后提出了一种通过注入冻结的 ECAPA-TDNN 说话人嵌入并仅训练 LoRA 适配器的轻量级增强方法,使大语言模型在保留自然语言接口的同时实现了接近专用系统的说话人验证性能。
本文介绍了 OSUM-Pangu,这是一个基于 OpenPangu-7B 大语言模型并在昇腾 NPU 全栈非 CUDA 环境下构建的开源多维语音理解基础模型,其通过分阶段训练策略实现了与主流 GPU 模型相当的任务准确率,为开源语音社区提供了可复现的非 CUDA 基准。
本文介绍了 VoxCare 系统,该系统利用可穿戴设备在实时不存储原始音频的前提下,通过提取声学特征和语音基础模型指导的框架,对医院医护人员的自然沟通行为进行量化分析,从而揭示沟通模式与工作压力及负荷之间的关系,为优化医疗交付提供数据支持。