LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio
本文提出了 LongAudio-RAG 框架,通过将多小时长音频转换为结构化事件记录并利用 SQL 数据库进行检索,使大语言模型能够基于精确的时间定位证据回答自然语言问题,从而在混合边缘 - 云架构下有效解决了长音频问答中的上下文限制与幻觉问题。
140 篇论文
本文提出了 LongAudio-RAG 框架,通过将多小时长音频转换为结构化事件记录并利用 SQL 数据库进行检索,使大语言模型能够基于精确的时间定位证据回答自然语言问题,从而在混合边缘 - 云架构下有效解决了长音频问答中的上下文限制与幻觉问题。
本文介绍了 TCG CREST 团队在 DISPLACE-M 挑战赛(Track 1)中针对嘈杂乡村医疗场景提出的说话人日记系统,该系统通过对比模块化 SpeechBrain 框架与基于 WavLM 的 Diarizen 端到端框架,并结合多种聚类算法,最终在评估集上取得了 9.21% 的说话人日记错误率(DER),在 11 支参赛队伍中排名第六。
本文介绍了一个包含音频和振动多模态信号的单速链式输送机工业故障数据集,旨在通过标准化评估协议和基线模型,支持复杂工况下的系统级故障检测与多模态融合研究。
该研究提出了一种基于 SonicGuard 可穿戴传感器和 Audio Spectrogram Transformer 模型的自动化肠音分割与分类系统,通过为健康人和患者分别训练专用模型,实现了高精度的肠音模式识别,显著减少了人工标注时间并为胃肠道功能提供了客观的定量评估工具。
该研究表明,将基于自监督语音模型的语言识别系统从 126 种语言扩展至 4,017 种语言会引发非线性质变,使其不仅能有效恢复谱系关系,还能通过捕捉共享声学特征(如全球能量动态)揭示包括太平洋宏观集群在内的深层语言接触与历史联系。
该论文提出了一种名为 VASR 的多模态推理框架,通过构建音频 - 视觉思维链(AV-CoT)显式地建立声学信号与视觉证据(如场景和屏幕文字)之间的中间对齐,从而有效缓解单模态主导问题,在包含丰富视觉上下文的语音识别(CAVSR)任务中实现了最先进性能。
本文提出了一种基于 Vocos 的音频带宽扩展模型,该模型利用神经声码器骨干网络生成缺失的高频内容,并通过轻量级滤波器平滑融合,在 NVIDIA A100 GPU 和 CPU 上均实现了极低延迟的实时高质量音频增强。
该论文提出了一种通过自监督训练更新低秩适配器来微调冻结骨干网络的轻量级框架,仅需更新不到 1% 的参数即可在动态声学场景中实现高效的语音增强模型自适应,显著提升了模型在复杂噪声环境下的鲁棒性与感知质量。
该研究通过评估两种说话人匿名化技术在西班牙语数据集上的表现,发现虽然 STT-TTS 因消除韵律信息而严重损害帕金森病检测能力,但 kNN-VC 因能保留宏观韵律特征,仅使检测性能轻微下降,从而证明了在保护隐私的同时实现有效帕金森病检测的可行性。
本文提出了一种基于分析驱动的引擎声音生成框架,通过从真实录音中提取谐波结构并驱动参数化合成器,构建了包含精确转速与扭矩标注的“程序化引擎声音数据集”,以解决高质量标注数据稀缺的问题并支持相关领域的研究与开发。
SoundWeaver 是首个无需训练且与模型无关的文本转音频扩散服务系统,它通过语义相似缓存音频进行热启动,在保持或提升感知质量的同时将延迟降低了 1.8 至 3.0 倍。
本文提出了名为 WhispEar 的双向框架,通过统一语义表示实现正常语音到耳语的零样本伪平行数据生成,从而利用大规模数据增强显著提升了耳语转正常语音的转换性能,并发布了迄今最大的中英双语耳语 - 正常语音平行语料库。
本文提出了 FoleyFlow,一种通过掩码建模训练实现音视频语义与节奏对齐,并利用动态条件流框架基于视频特征生成协调音频的新方法,其在基准测试中显著超越了现有成果。
DualTurn 是一种基于双通道生成式语音预训练的模型,它通过无监督学习对话动态并微调为可解释的轮次信号,实现了比现有方法更自然、更精准的语音交互轮次预测与代理动作生成。
该论文针对现有语音情感识别方法过度简化情感模糊性的问题,提出了一种将模糊情感识别重构为分布推理任务的框架,通过引入对齐人类感知分布的目标和结构化思维链监督,显著提升了大型音频语言模型在 IEMOCAP 和 CREMA-D 数据集上的情感预测能力。
该论文提出了跨语言转移矩阵(CLTM)这一系统性方法,用于量化性别识别和说话人验证等副语言任务中不同语言对之间的交互影响,并揭示了基于多语言 HuBERT 编码器的微调过程中存在的显著且系统性的语言依赖性转移模式。
该论文提出了一种利用真实音频驱动静态面部图像生成合成视频流的零资源框架,成功在缺乏标注数据的加泰罗尼亚语上实现了接近最先进水平的音视频语音识别性能,证明了合成视觉数据是替代真实录音的可行方案。
本文综述了利用自监督及视觉 grounded 计算模型研究早期语言习得的最新进展,展示了这些模型如何在缺乏强语言先验的情况下从语音和视听输入中学习,并揭示了其学习原理与多种语言习得理论及人类认知的高度兼容性。
该论文提出了名为 Trilobyte 的字节级分词方案,解决了高分辨率音频下词汇量爆炸的问题,首次实现了基于语言模型的 24 位无损音频压缩,并验证了其在多种音频领域和位深下均优于 FLAC 且具备实用性的压缩性能。
该论文指出,尽管深度语音降噪(DNS)模型被广泛应用于高安全场景,但通过添加人耳难以察觉的对抗性噪声即可使其输出变为无法理解的乱码,且经专家验证和主观测试证实了攻击的有效性与隐蔽性,从而强调了在将其用于安全关键应用前必须采取实际防御措施。