Reconstruct! Don't Encode: Self-Supervised Representation Reconstruction Loss for High-Intelligibility and Low-Latency Streaming Neural Audio Codec

该论文提出了一种基于自监督表示重建(SSRR)损失的新方法,显著提升了神经音频编解码器的训练效率、语音可懂度及实时流式性能,并据此构建了低延迟、零前瞻的 JHCodec 模型。

Junhyeok Lee, Xiluo He, Jihwan Lee, Helin Wang, Shrikanth Narayanan, Thomas Thebaud, Laureano Moro-Velazquez, Jesús Villalba, Najim DehakMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

该论文通过实证研究探讨了在数据稀缺的太平洋原住民语言场景下,全量微调与低秩适应(LoRA)等策略在持续学习中的表现,揭示了模型在适应这些语言时面临的严重内部表征漂移及稳定性与可塑性困境,并强调了为代表性不足语言开发鲁棒适应策略的紧迫性。

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Doctor or Patient? Synergizing Diarization and ASR for Code-Switched Hinglish Medical Conditions Extraction

该论文提出了一种结合端到端神经说话人分离(EEND-VC)与微调 Qwen3 ASR 模型的级联系统,用于从重叠严重的印地语 - 英语代码切换医疗对话中提取病症,并在 DISPLACE-M 挑战赛中凭借开源架构夺得第一名。

Séverin Baroudi, Yanis Labrak, Shashi Kumar, Joonas Kalda, Sergio Burdisso, Pawel Cyrta, Juan Ignacio Alvarez-Trejos, Petr Motlicek, Hervé Bredin, Ricard MarxerMon, 09 Ma⚡ eess

Community-Informed AI Models for Police Accountability

本文提出了一种由社区参与的多视角人工智能开发方法,旨在通过分析洛杉矶警察局执法记录仪视频来增强政府问责制,并强调了社会科学家在将多元利益相关者视角融入警务问责 AI 工具研发中的关键作用。

Benjamin A. T. Grahama, Lauren Brown, Georgios Chochlakis, Morteza Dehghani, Raquel Delerme, Brittany Friedman, Ellie Graeden, Preni Golazizian, Rajat Hebbar, Parsa Hejabi, Aditya Kommineni, Mayagüez Salinas, Michael Sierra-Arévalo, Jackson Trager, Nicholas Weller, Shrikanth NarayananFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

该论文提出了一种将文本域适应重构为文本去噪任务的轻量级新方法,通过训练大语言模型从噪声输入中恢复清晰转录,在无需修改架构或增加参数的情况下,有效解决了基于大语言模型的语音识别系统在仅使用文本数据适应新领域时跨模态对齐被破坏的问题,并显著提升了性能。

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess

Can LLMs Help Localize Fake Words in Partially Fake Speech?

该论文探讨了利用基于文本训练的大语言模型构建语音模型以定位部分伪造语音中的篡改词汇,实验表明模型虽能利用训练数据中的编辑风格模式(如词汇极性替换)在特定场景下有效工作,但如何避免过度依赖这些特定模式并提升对未见编辑风格的泛化能力仍是待解决的开放性问题。

Lin Zhang, Thomas Thebaud, Zexin Cai, Sanjeev Khudanpur, Daniel Povey, Leibny Paola García-Perera, Matthew Wiesner, Nicholas AndrewsFri, 13 Ma⚡ eess

Self-Speculative Decoding for LLM-based ASR with CTC Encoder Drafts

该论文提出了一种利用 CTC 编码器作为草稿模型来加速自回归推理并提升自动语音识别(ASR)准确性的“自投机解码”方法,该方法在多个语料库和语言上实现了显著的速度提升,同时在 HuggingFace Open ASR 基准测试中取得了 5.58% 的优异词错率(WER)记录。

George Saon, Samuel Thomas, Takashi Fukuda, Tohru Nagano, Avihu Dekel, Luis LastrasFri, 13 Ma⚡ eess