cs.SD 篇论文 | Gist.Science

When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS

该论文研究表明，在训练数据具备足够声学多样性的前提下，对基于大语言模型（LLM）的文本转语音（TTS）系统进行 LoRA 微调，能够显著提升语音克隆任务中的感知质量、说话人保真度及信噪比，从而证明其是比冻结基座模型更有效的说话人自适应机制。

Anupam Purwar, Aditya ChoudharyThu, 12 Ma🤖 cs.AI

Training-Free Multi-Step Inference for Target Speaker Extraction

该论文提出了一种无需训练的多步推理方法，通过冻结预训练模型并迭代插值混合语音与上一轮估计值来优化目标说话人提取，同时引入联合指标优化策略以在无真实标签场景下平衡不同评估指标，从而实现可控制的提取效果。

Zhenghai You, Ying Shi, Lantian Li, Dong WangThu, 12 Ma💻 cs

V2M-Zero: Zero-Pair Time-Aligned Video-to-Music Generation

本文提出了 V2M-Zero，一种无需成对数据即可实现视频与音乐时间对齐生成的零样本方法，其核心在于利用跨模态共享的时序变化结构（通过模态内事件曲线捕捉），仅需微调文本转音乐模型并在推理阶段替换为视频事件曲线，即可在音频质量、语义对齐及时间同步性上显著超越现有基线。

Yan-Bo Lin, Jonah Casebeer, Long Mai, Aniruddha Mahapatra, Gedas Bertasius, Nicholas J. BryanThu, 12 Ma🤖 cs.AI

Efficient Emotion and Speaker Adaptation in LLM-Based TTS via Characteristic-Specific Partial Fine-Tuning

该论文提出了一种名为 CSP-FT 的特征特定部分微调策略，通过动态分析并仅微调对情感和说话人信息贡献最大及最小的两层参数，在仅更新约 8% 参数的情况下实现了比全量微调快 2 倍的训练速度，同时显著提升了 LLM 基语音合成模型在未见领域的克隆保真度、发音清晰度并缓解了灾难性遗忘。

Tianrui Wang, Meng Ge, Cheng Gong, Chunyu Qiang, Haoyu Wang, Zikang Huang, Yu Jiang, Ye Ni, Yuheng Lu, Xiaobao Wang, Engsiong Chng, Xie Chen, Longbiao Wang, Jianwu DangMon, 09 Ma💻 cs

HVAC-EAR: Eavesdropping Human Speech Using HVAC Systems

该论文提出了名为 HVAC-EAR 的新方法，利用广泛部署的 HVAC 系统压力传感器，通过复数统一注意力模块和相位重建技术，成功从低采样率噪声数据中恢复出 1.2 米范围内的可懂语音，揭示了由此引发的新型隐私风险。

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi BaruaMon, 09 Ma💻 cs

Purification Before Fusion: Toward Mask-Free Speech Enhancement for Robust Audio-Visual Speech Recognition

该论文提出了一种无需显式噪声掩码的端到端音频 - 视觉语音识别框架，通过基于 Conformer 的瓶颈融合模块利用视觉线索隐式增强含噪音频特征，从而在保留语音语义完整性的同时提升了噪声环境下的识别鲁棒性。

Linzhi Wu, Xingyu Zhang, Hao Yuan, Yakun Zhang, Changyan Zheng, Liang Xie, Tiejun Liu, Erwei YinMon, 09 Ma🤖 cs.AI

LMU-Based Sequential Learning and Posterior Ensemble Fusion for Cross-Domain Infant Cry Classification

该论文提出了一种结合多分支 CNN 特征提取与增强型 Legendre 记忆单元（LMU）的紧凑声学框架，并引入基于熵门控的校准后验集成融合策略，有效解决了跨域婴儿哭声分类中信号非平稳、标注稀缺及域偏移等挑战，显著提升了模型的泛化能力与实时部署性能。

Niloofar Jazaeri, Hilmi R. Dajani, Marco Janeczek, Martin BouchardMon, 09 Ma🤖 cs.LG

Whisper-RIR-Mega: A Paired Clean-Reverberant Speech Benchmark for ASR Robustness to Room Acoustics

本文介绍了名为 Whisper-RIR-Mega 的配对清洁与混响语音基准数据集，该数据集通过将 LibriSpeech 语料与 RIR-Mega 真实房间脉冲响应结合，并针对混响时间和直达声混响比进行分层划分，用于评估不同规模 Whisper 模型在房间声学条件下的自动语音识别鲁棒性。

Mandip GoswamiMon, 09 Ma🤖 cs.AI

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

本文提出了 Omni-C，一种基于单一稠密 Transformer 编码器的统一架构，它通过大规模非对齐数据的单模态对比预训练和轻量级投影头，在无需混合专家（MoE）或配对监督的情况下，有效压缩了图像、音频和文本等异构模态，显著降低了推理内存开销并实现了与专家模型相当的性能。

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de GusmãoMon, 09 Ma🤖 cs.AI

Koopman Regularized Deep Speech Disentanglement for Speaker Verification

该论文提出了一种名为 DKSD-AE 的深度学习架构，通过结合多步 Koopman 算子学习模块与实例归一化技术，在无文本监督且参数更少的情况下，实现了说话人特征与语音内容的高效解耦，并在说话人验证任务中展现出优于或媲美现有最先进方法的性能及鲁棒性。

Nikos Chazaridis, Mohammad Belal, Rafael Mestre, Timothy J. Norman, Christine EversMon, 09 Ma🤖 cs.LG

Which Data Matter? Embedding-Based Data Selection for Speech Recognition

该论文提出了一种基于嵌入的语音数据选择方法，通过从海量野生数据中筛选出在说话人属性、语音内容和语义含义上兼具相关性与多样性的子集，使针对特定领域的专用语音识别模型在仅使用 5% 数据的情况下，相比全量训练实现了高达 36.8% 的相对词错率降低。

Zakaria Aldeneh, Skyler Seto, Maureen de Seyssel, Jie Chi, Zijin Gu, Takuya Higuchi, Jee-weon Jung, Shinji Watanabe, David Grangier, Barry-John Theobald, Tatiana LikhomanenkoMon, 09 Ma💻 cs

How Well Do Current Speech Deepfake Detection Methods Generalize to the Real World?

该论文针对现有语音深度伪造检测器在真实世界复杂场景下泛化能力不足的问题，构建了涵盖 14 种语言、7 大平台及 180 位公众人物的多语言“在野”（ML-ITW）数据集，并通过实验证实了当前主流检测方法在跨语言和真实声学环境中的性能显著下降。

Daixian Li, Jun Xue, Yanzhen Ren, Zhuolin Yi, Yihuan Huang, Guanxiang Feng, Yi ChaiMon, 09 Ma💻 cs

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

该论文提出了 TempoSyncDiff，一种基于参考条件的潜在扩散框架，通过教师 - 学生蒸馏技术将推理步数大幅减少，从而在保持身份一致性和时序稳定性的同时，实现了低延迟、适合边缘部署的音频驱动说话头生成。

Soumya Mazumdar, Vineet Kumar RakeshMon, 09 Ma🤖 cs.AI

Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR

该研究通过 RAPTOR 框架的受控实验表明，在音频深度伪造检测中，多语言 HuBERT 预训练轨迹带来的跨域鲁棒性比模型规模更为关键，使得 1 亿参数模型能媲美大型商业系统，且其在扰动下的校准稳定性优于 WavLM 变体。

Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai DossMon, 09 Ma🤖 cs.AI

Whisper-CD: Accurate Long-Form Speech Recognition using Multi-Negative Contrastive Decoding

本文提出了 Whisper-CD，一种无需训练的多负对比解码框架，通过对比干净音频与三种声学扰动生成的负向 logits，有效解决了 Whisper 模型在长语音识别中的幻觉、重复和遗漏问题，显著降低了词错率并提升了推理速度。

Hoseong Ahn, Jeongyun Chae, Yoonji Park, Kyuhong ShimMon, 09 Ma🤖 cs.AI

Continual Adaptation for Pacific Indigenous Speech Recognition

该论文通过实证研究探讨了在数据稀缺的太平洋原住民语言场景下，全量微调与低秩适应（LoRA）等策略在持续学习中的表现，揭示了模型在适应这些语言时面临的严重内部表征漂移及稳定性与可塑性困境，并强调了为代表性不足语言开发鲁棒适应策略的紧迫性。

Yang Xiao, Aso Mahmudi, Nick Thieberger, Eliathamby Ambikairajah, Eun-Jung Holden, Ting DangMon, 09 Ma💬 cs.CL

Prosodic Boundary-Aware Streaming Generation for LLM-Based TTS with Streaming Text Input

该论文提出了一种基于弱时间对齐数据的 Prosodic Boundary-Aware 后训练策略，使 LLM 驱动的 TTS 模型能够在流式文本输入下实现基于内容边界的早期停止与滑动窗口推理，从而有效解决了流式合成中韵律不自然和长文本崩溃的问题，显著降低了长文本合成的词错误率并提升了说话人与情感相似度。

Changsong Liu, Tianrui Wang, Ye Ni, Yizhou Peng, Eng Siong ChngMon, 09 Ma🤖 cs.AI

RAMoEA-QA: Hierarchical Specialization for Robust Respiratory Audio Question Answering

本文提出了 RAMoEA-QA，一种通过两阶段条件专业化机制（即音频混合专家路由和语言混合适配器选择）来应对呼吸音频数据异质性与查询意图多样性的分层生成模型，该模型在提升诊断准确率的同时展现了卓越的跨域泛化能力。

Gaia A. Bertolino, Yuwei Zhang, Tong Xia, Domenico Talia, Cecilia MascoloMon, 09 Ma🤖 cs.AI

Audio-Language Models for Audio-Centric Tasks: A Systematic Survey

本文作为首篇系统性综述，全面梳理了涵盖语音、音乐及环境声的音频 - 语言模型（ALM）的研究现状，构建了统一的架构与训练目标分类体系，并深入分析了该领域的评估挑战、局限性与未来发展方向。

Yi Su, Jisheng Bai, Qisheng Xu, Kele Xu, Yong DouFri, 13 Ma⚡ eess

Text-only adaptation in LLM-based ASR through text denoising

该论文提出了一种将文本-only 适应重构为文本去噪任务的新方法，通过训练大语言模型从噪声输入中恢复干净转录，在无需修改架构或增加参数的情况下，有效解决了在目标域文本微调时破坏语音 - 文本模态对齐的问题，并显著提升了性能。

Andrés Carofilis, Sergio Burdisso, Esaú Villatoro-Tello, Shashi Kumar, Kadri Hacioglu, Srikanth Madikeri, Pradeep Rangappa, Manjunath K E, Petr Motlicek, Shankar Venkatesan, Andreas StolckeFri, 13 Ma⚡ eess