RA-QA: A Benchmarking System for Respiratory Audio Question Answering Under Real-World Heterogeneity
本文提出了 RA-QA 基准系统,通过构建包含 900 万条多样化问答对的标准化数据集及统一评估协议,旨在解决现有呼吸音频问答研究在模态、设备和问题类型等真实世界异质性方面评估不足的局限,并揭示了当前模型在此类复杂场景下的性能瓶颈。
141 篇论文
本文提出了 RA-QA 基准系统,通过构建包含 900 万条多样化问答对的标准化数据集及统一评估协议,旨在解决现有呼吸音频问答研究在模态、设备和问题类型等真实世界异质性方面评估不足的局限,并揭示了当前模型在此类复杂场景下的性能瓶颈。
本文提出了 Aurchestra 系统,这是首个在资源受限的助听设备上实现细粒度、实时声景控制的技术,它通过动态界面和实时多输出提取网络,允许用户像音频工程师一样独立调节环境中最多五个重叠声源的声音。
本文介绍了 VoxKnesset,这是一个包含约 2300 小时、跨越 15 年且涵盖 393 位发言人的开源希伯来语议会演讲数据集,旨在通过基准测试揭示语音识别模型在长期老化条件下的性能退化,并推动对老龄化鲁棒性语音系统的研究。
本文介绍了面向前线医疗对话的 DISPLACE-M 挑战赛,该挑战发布了包含 55 小时真实录音的数据集,并针对说话人分离、语音识别、话题识别和对话摘要四项任务建立了基线系统以评估其性能。
本文介绍了 PARLO 痴呆语料库(PDC),这是首个基于德国九家学术记忆诊所采集的、包含阿尔茨海默病相关轻度认知障碍及痴呆患者与健康对照者多模态数据的公开德语资源,旨在通过标准化神经心理学任务录音及其转录和临床元数据,推动基于语音的阿尔茨海默病非侵入性检测研究。
本文针对训练无关的异常声音检测任务,系统评估了多种时间池化策略,并提出了一种结合相对偏差池化与广义均值池化的混合方法,在多个基准数据集上实现了超越现有训练系统及集成模型的最优性能。
该论文提出了一种创新的多模态采集框架,首次实现了实时动态 MRI、脑电图(EEG)和表面肌电图(sEMG)的同步获取,并通过定制化的伪影抑制方案克服了技术挑战,从而为揭示言语产生的神经生理机制及推动脑机接口发展提供了前所未有的研究窗口。
本文提出了一种无需训练、计算成本极低且具备可解释性的紧凑声学参数集,用于语音音色属性检测,其性能在超越传统特征和监督深度学习嵌入的同时,逼近了最先进的自监督模型水平。
本文提出了名为 PolyBench 的新基准,旨在评估大音频语言模型在复调音频中对多事件并发及其关系的组合推理能力,并揭示了现有模型在此类任务中普遍存在的性能瓶颈。
该论文通过构建包含多语言儿童语音的大规模语料库 TinyVox,训练并验证了名为 BabAR 的跨语言儿童音素识别系统,证明其能有效支持儿童语音发展的粗粒度自动评估。
该论文提出了一种名为 VI-NBFNet 的新型视觉信息神经波束成形网络,通过融合麦克风阵列信号与基于预训练视觉语音识别模型提取的唇动特征,利用注意力机制实现了在复杂声学环境下对静态及动态说话人的鲁棒语音增强。
本文研究了模型融合技术在多领域自动语音识别(ASR)中的应用潜力与局限,通过评估 11 种融合算法并提出了基于奇异值提升的 BoostedTSV-M 新算法,成功在单一模型中实现了优于全量微调的欧洲葡萄牙语领域性能,同时保持了良好的分布外泛化能力。
本文提出了无需重新训练的 MSpoof-TTS 框架,通过多分辨率欺骗检测与分层解码策略,在推理阶段动态引导神经编解码语言模型生成更高质量、更鲁棒的零样本离散语音。
该论文提出了一种具备早期退出能力的语音分离与增强神经网络架构,并结合不确定性感知概率框架,实现了在不牺牲重建质量的前提下根据目标信噪比动态调整计算量,从而显著提升了在移动和异构设备上的部署效率。
本文提出了 LadderSym,一种基于双流编码器与符号提示解码器的多模态交错 Transformer 模型,通过改进跨模态对齐并减少频率歧义,显著提升了音乐练习错误检测的 F1 分数。
本文针对音乐生成模型评估滞后的问题,提出了涵盖大规模偏好数据集、细粒度人类标注语料及统一基准测试的 CMI-RewardBench 生态系统,并开发了能够处理异构多模态指令的 CMI 奖励模型,显著提升了与人类判断的相关性并支持推理时的有效扩展。
本文提出了名为 SemKey 的新框架,通过解耦的情感、主题、长度和惊奇度语义目标及基于信号引导的注意力机制,有效解决了脑电(EEG)到文本解码中的语义偏差、信号忽视及 BLEU 评估陷阱问题,显著提升了生成内容的真实性和多样性。
本文提出了一种名为 SMMA 的深度学习自动化框架,通过结合分割与骨架化技术实现了对言语过程中舌骨下肌群(geniohyoid)厚度的精准测量,不仅达到了接近人工标注的准确度,还揭示了粤语元音发音中的肌肉激活模式及性别差异,为大规模言语运动控制研究及吞咽障碍评估提供了可扩展的客观工具。
本文提出了名为 ACES 的表征中心审计方法,通过提取低维口音判别子空间来揭示自动语音识别系统中口音差异的内在机制,发现口音特征与识别关键线索深度纠缠,表明单纯消除这些特征无法改善公平性,反而应将其作为诊断模型脆弱性的关键工具。
本文介绍了 CP-JKU 团队为 ICASSP 2025 音乐源恢复挑战赛提出的系统,该系统通过结合采用三阶段课程学习策略的 BandSplit-RoFormer 分离模型与从通用专家演化为八个乐器特定专家的 HiFi++ GAN 波形恢复器,实现了从混音母带中高质量恢复原始乐器分轨的目标。