Robust Audio-Visual Target Speaker Extraction with Emotion-Aware Multiple Enrollment Fusion
该论文提出了一种情感感知的多注册融合方法,通过在高缺失率下训练,显著提升了视听目标说话人提取系统在测试阶段面对模态缺失时的鲁棒性,并证明了结合单帧人脸图像与帧级唇部特征是实现高性能与高鲁棒性的有效策略。
141 篇论文
该论文提出了一种情感感知的多注册融合方法,通过在高缺失率下训练,显著提升了视听目标说话人提取系统在测试阶段面对模态缺失时的鲁棒性,并证明了结合单帧人脸图像与帧级唇部特征是实现高性能与高鲁棒性的有效策略。
该研究通过构建八种不同特征编码的钢琴音乐网络,揭示了结构丰富性与通信效率之间的权衡:单一特征编码虽能降低模型误差但导致高熵率的不确定性,而多特征编码虽细化状态空间却增加了模型误差,表明特征选择直接决定了音乐网络的不确定性分布及其作为听众预期代理的合理性。
本文提出了一种名为 HyWA 的新方法,利用超网络为语音活动检测(VAD)模型中的特定层生成个性化权重,从而在保持架构统一的同时,显著提升了个性化语音活动检测(PVAD)的平均精度并优化了部署效率。
该论文提出了一种名为多视图张量融合(MVTF)的新框架,通过利用同步多视角唇部视频学习视图间相关性,显著提升了音频 - 视觉目标说话人提取在单视图及多视图场景下的性能与鲁棒性。
该论文提出了一种校准 - 推理框架,通过校准阶段对齐感知维度并结合基于组相对策略优化(GRPO)的强化学习阶段,显著提升了音频大语言模型在多维语音质量描述、缺陷定位及平均意见分(MOS)预测方面的性能,在 QualiSpeech 基准上取得了最先进的成果。
本文介绍了名为 nlm 的 Max 外部插件集,它通过 C++ 实现,能够高效地实时进行弦、膜和板的非线性模态合成,并支持参数交互控制、自定义模态数据加载及多通道输出,从而降低了作曲家、表演者和声音设计师探索非线性模态合成表现力的门槛。
该论文通过词级探测、逐层表示分析及跨模态对齐指标,系统揭示了当前主流语音分词器主要编码语音学特征而非文本语义,从而指出了其与文本语义不匹配的问题并为下一代语音分词方法的设计提供了实践指导。
本文介绍了 FireRedASR2S,这是一个集成了语音识别、语音活动检测、语言识别和标点预测四大模块的工业级全功能自动语音识别系统,其在多项基准测试中均取得了超越现有主流模型的 SOTA 性能。
本文提出了 G-STAR,一种将时间感知说话人追踪模块与语音大语言模型转录骨干相结合的端到端系统,旨在解决长篇幅、多说话人重叠语音场景下,在保持会议级说话人身份一致性的同时生成带时间戳和说话人标签的转录文本的问题。
该论文提出了名为 Geo-ATBench 的地理空间音频标注基准及 GeoFusion-AT 融合框架,旨在通过引入地理信息系统提供的语义上下文(如兴趣点)来辅助多标签音频识别,从而有效解决仅靠音频波形难以区分的声学混淆问题,并验证了该方法在性能上能与人类听辨水平对齐。
该论文首次系统揭示了语音质量评估中存在的性别偏差(男性评分普遍高于女性),并提出了通过抽象二元组嵌入学习性别特定评分模式的性别感知模型,以解决现有自动评分模型偏向男性感知标准的问题并提升评估的公平性与准确性。
该论文提出了一种名为 CSP-FT 的特征特定部分微调策略,通过动态分析并仅微调对情感和说话人信息贡献最大及最小的两层参数,在仅更新约 8% 参数的情况下实现了比全量微调快 2 倍的训练速度,同时显著提升了 LLM 基语音合成模型在未见领域的克隆保真度、发音清晰度并缓解了灾难性遗忘。
本文介绍了 trajectoRIR 数据库,该数据库通过在受控房间内沿 L 形轨迹移动多种麦克风阵列(包括假头、一阶 Ambisonics 及各类阵列)并结合静止麦克风,采集了包含 8648 个静止房间脉冲响应及多种动态音频信号的综合数据集,旨在支持声源定位、声场重建等声学信号处理任务。
该论文提出了 ParaS2S 框架,通过构建 ParaS2SBench 基准、设计抗风格幻觉的多阶段自动评估器以及采用强化学习策略,有效解决了现有语音到语音模型在情感、语调等副语言线索感知与响应方面的不足,显著提升了对话内容与风格的适配性。
该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架,通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征,从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。
该论文提出了一种匹配骨干测试方法并结合机制分析,揭示当前语音大语言模型在多数场景下实为成本高昂的级联系统,且在噪声环境下其性能甚至可能低于传统的“语音识别转文本再输入大模型”的级联方案。
该论文提出了一种结合多分支 CNN 特征提取与增强型 Legendre 记忆单元(LMU)的紧凑声学框架,并引入基于熵门控的校准后验集成融合策略,有效解决了跨域婴儿哭声分类中信号非平稳、标注稀缺及域偏移等挑战,显著提升了模型的泛化能力与实时部署性能。
本文介绍了名为 Whisper-RIR-Mega 的配对清洁与混响语音基准数据集,该数据集通过将 LibriSpeech 语料与 RIR-Mega 真实房间脉冲响应结合,并针对混响时间和直达声混响比进行分层划分,用于评估不同规模 Whisper 模型在房间声学条件下的自动语音识别鲁棒性。
本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。
该论文提出了一种无需更新模型权重的参数化激活导向方法,通过识别并控制语音基础模型中间层中编码口音信息的特定子空间,有效降低了自动语音识别中的口音误差。