V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

本文提出了 V2M-Zero,一种无需成对数据即可实现视频与音乐时间对齐生成的零样本方法,其核心在于利用跨模态共享的时序变化结构(通过模态内事件曲线捕捉),仅需微调文本转音乐模型并在推理阶段替换为视频事件曲线,即可在音频质量、语义对齐及时间同步性上显著超越现有基线。

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

该论文提出了一种名为 CSP-FT 的特征特定部分微调策略,通过动态分析并仅微调对情感和说话人信息贡献最大及最小的两层参数,在仅更新约 8% 参数的情况下实现了比全量微调快 2 倍的训练速度,同时显著提升了 LLM 基语音合成模型在未见领域的克隆保真度、发音清晰度并缓解了灾难性遗忘。

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架,通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征,从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

该论文提出了一种结合多分支 CNN 特征提取与增强型 Legendre 记忆单元(LMU)的紧凑声学框架,并引入基于熵门控的校准后验集成融合策略,有效解决了跨域婴儿哭声分类中信号非平稳、标注稀缺及域偏移等挑战,显著提升了模型的泛化能力与实时部署性能。

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

该论文提出了一种名为 DKSD-AE 的深度学习架构,通过结合多步 Koopman 算子学习模块与实例归一化技术,在无文本监督且参数更少的情况下,实现了说话人特征与语音内容的高效解耦,并在说话人验证任务中展现出优于或媲美现有最先进方法的性能及鲁棒性。

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

该论文提出了一种基于嵌入的语音数据选择方法,通过从海量野生数据中筛选出在说话人属性、语音内容和语义含义上兼具相关性与多样性的子集,使针对特定领域的专用语音识别模型在仅使用 5% 数据的情况下,相比全量训练实现了高达 36.8% 的相对词错率降低。

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

该论文针对现有语音深度伪造检测器在真实世界复杂场景下泛化能力不足的问题,构建了涵盖 14 种语言、7 大平台及 180 位公众人物的多语言“在野”(ML-ITW)数据集,并通过实验证实了当前主流检测方法在跨语言和真实声学环境中的性能显著下降。

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

Continual Adaptation for Pacific Indigenous Speech Recognition

该论文通过实证研究探讨了在数据稀缺的太平洋原住民语言场景下,全量微调与低秩适应(LoRA)等策略在持续学习中的表现,揭示了模型在适应这些语言时面临的严重内部表征漂移及稳定性与可塑性困境,并强调了为代表性不足语言开发鲁棒适应策略的紧迫性。

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

该论文提出了一种基于弱时间对齐数据的 Prosodic Boundary-Aware 后训练策略,使 LLM 驱动的 TTS 模型能够在流式文本输入下实现基于内容边界的早期停止与滑动窗口推理,从而有效解决了流式合成中韵律不自然和长文本崩溃的问题,显著降低了长文本合成的词错误率并提升了说话人与情感相似度。

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

Text-only adaptation in LLM-based ASR through text denoising

该论文提出了一种将文本-only 适应重构为文本去噪任务的新方法,通过训练大语言模型从噪声输入中恢复干净转录,在无需修改架构或增加参数的情况下,有效解决了在目标域文本微调时破坏语音 - 文本模态对齐的问题,并显著提升了性能。

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess