ImKWS: Test-Time Adaptation for Keyword Spotting with Class Imbalance
本文提出了一种名为 ImKWS 的测试时适应方法,通过引入奖励与惩罚分支的分离更新机制及多变换一致性约束,有效解决了关键词 spotting 任务中因类别不平衡导致的熵最小化过自信与背景类偏差问题。
141 篇论文
本文提出了一种名为 ImKWS 的测试时适应方法,通过引入奖励与惩罚分支的分离更新机制及多变换一致性约束,有效解决了关键词 spotting 任务中因类别不平衡导致的熵最小化过自信与背景类偏差问题。
该论文提出了一种基于自监督表示重建(SSRR)损失的新方法,显著提升了神经音频编解码器的训练效率、语音可懂度及实时流式性能,并据此构建了低延迟、零前瞻的 JHCodec 模型。
该论文提出了一种无需训练的后处理方法,通过利用推理时的激活导向技术,成功在零样本语音合成中实现了去除口音同时保留说话人音色。
本文提出了 StreamVoiceAnon+,一种通过监督微调结合帧级情感蒸馏的流式说话人匿名化方法,在保持低延迟和强隐私保护的同时,显著提升了情感内容的保留能力。
本文提出了 Whisper-CD,一种无需训练的多负对比解码框架,通过对比干净音频与三种声学扰动生成的负向 logits,有效解决了 Whisper 模型在长语音识别中的幻觉、重复和遗漏问题,显著降低了词错率并提升了推理速度。
该论文通过实证研究探讨了在数据稀缺的太平洋原住民语言场景下,全量微调与低秩适应(LoRA)等策略在持续学习中的表现,揭示了模型在适应这些语言时面临的严重内部表征漂移及稳定性与可塑性困境,并强调了为代表性不足语言开发鲁棒适应策略的紧迫性。
这项研究通过结合监督分类与跨语言迁移实验,分析了芬兰语、法语和斯洛伐克语中自闭症与非自闭症儿童语音的声学特征,发现尽管部分自闭症语音线索具有跨语言通用性,但构建鲁棒的跨语言分类器仍需考虑语言特异性及录音条件的一致性。
该研究通过分析芬兰语、法语和斯洛伐克语语料库中的声学特征,揭示了自闭症儿童在跨语言层面表现出强度变异性增加、嗓音更清晰且基频降低等独特的韵律特征,从而挑战了缺陷模型并支持了自闭症存在跨语言声学标记的观点。
该论文提出了一种结合端到端神经说话人分离(EEND-VC)与微调 Qwen3 ASR 模型的级联系统,用于从重叠严重的印地语 - 英语代码切换医疗对话中提取病症,并在 DISPLACE-M 挑战赛中凭借开源架构夺得第一名。
本文提出了一种由社区参与的多视角人工智能开发方法,旨在通过分析洛杉矶警察局执法记录仪视频来增强政府问责制,并强调了社会科学家在将多元利益相关者视角融入警务问责 AI 工具研发中的关键作用。
本文作为首篇系统性综述,全面梳理了涵盖语音、音乐及环境声的音频 - 语言模型(ALM)的研究现状,构建了统一的架构与训练目标分类体系,并深入分析了该领域的评估挑战、局限性与未来发展方向。
该论文提出了一种将文本域适应重构为文本去噪任务的轻量级新方法,通过训练大语言模型从噪声输入中恢复清晰转录,在无需修改架构或增加参数的情况下,有效解决了基于大语言模型的语音识别系统在仅使用文本数据适应新领域时跨模态对齐被破坏的问题,并显著提升了性能。
该论文通过对 96 种语言的研究发现,自监督语音模型(S3Ms)的表示空间中存在与音系特征对应的线性方向,且这些向量具有可组合性,能够像算术运算一样通过向量加减和缩放来连续控制语音的音系属性(如清浊音)。
本文提出了 V2A-DPO,一种专为基于流的视频转音频模型设计的直接偏好优化框架,通过引入 AudioScore 评分系统、自动化偏好数据生成流水线以及课程学习策略,显著提升了生成音频与人类偏好的一致性,并在多项指标上超越了现有最先进模型。
该论文探讨了利用基于文本训练的大语言模型构建语音模型以定位部分伪造语音中的篡改词汇,实验表明模型虽能利用训练数据中的编辑风格模式(如词汇极性替换)在特定场景下有效工作,但如何避免过度依赖这些特定模式并提升对未见编辑风格的泛化能力仍是待解决的开放性问题。
该研究提出利用预训练的 XLS-R 模型(仅使用其前三层)实现高精度咳嗽片段自动检测,从而为在智能手机上部署可扩展的结核病筛查工具提供了高效可行的技术方案。
该论文提出了一种利用 CTC 编码器作为草稿模型来加速自回归推理并提升自动语音识别(ASR)准确性的“自投机解码”方法,该方法在多个语料库和语言上实现了显著的速度提升,同时在 HuggingFace Open ASR 基准测试中取得了 5.58% 的优异词错率(WER)记录。
本文提出了名为 Fair-Gate 的公平性感知可解释风险门控框架,通过风险外推和局部互补门控机制,有效解决了语音生物识别系统中因捷径学习和特征纠缠导致的性别性能差距问题,从而在 VoxCeleb1 数据集上实现了更优的效用与公平性权衡。
该论文提出了一种结合伪标签继续预训练与监督微调的方法,利用 2 万条标注数据将 wav2vec2-bert-2.0 模型适配至斯瓦希里语自动语音识别任务,在 Common Voice 数据集上将词错率从基线的 8.3% 大幅降低至 3.24%,实现了当前学术界的最佳性能。
该论文提出了名为 AnimeScore 的基于偏好的自动评估框架,通过收集大规模成对排序数据并分析声学特征,解决了动漫风格语音缺乏标准化客观评价指标的问题,并证明了基于 SSL 的排序模型在评估效果上显著优于传统手工特征。