cs.SD 篇论文 | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

本文提出了一种名为 S2S-ZEST 的无文本、非平行语音到语音零样本情感风格迁移框架，该框架通过分析 - 合成流水线提取语义、说话人和情感表征，在保留源语音内容与说话人身份的同时，成功将参考语音的情感风格迁移至目标语音，并在情感迁移效果及情感识别数据增强应用上优于现有方法。

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

本文提出了一种名为 TI-DANSE+ 的改进算法，通过利用邻居节点的局部部分和及树剪枝策略，解决了原有拓扑无关分布式信号估计算法收敛慢的问题，使其在保持拓扑鲁棒性的同时实现了更快的收敛速度并节省了通信带宽。

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

该论文指出传统 CLAP 评分与人类主观评价相关性较低，并提出了一种基于人类感知的主观评分训练的 Human-CLAP 模型，使其与主观评价的斯皮尔曼等级相关系数提升了 0.25 以上。

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本文提出了 VSSFlow，一种基于流匹配的联合学习框架，通过引入解耦条件聚合机制，成功统一了视频到声音和视频文本到语音生成任务，并在端到端联合训练中实现了超越现有专用基线的性能。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

本文提出了 VoiceBridge，一种基于能量保持变分自编码器、联合神经先验及桥接训练目标的一步潜在桥接模型，能够利用单一潜在生成过程高效恢复从去噪、超分到合成语音优化等多种失真场景下的高质量全频带语音。

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

本文提出了 LARA-Gen 框架，通过潜在情感表示对齐和基于连续效价 - 唤醒度空间的情感控制模块，实现了音乐生成模型中细粒度且连续的情感控制，并建立了相应的评估基准以验证其优越性。

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

该论文提出了一种噪声条件混合专家框架，通过噪声感知专家路由、通用模型专家专业化策略及信噪比衰减课程学习协议，将特征空间分解为专用子空间，从而在复杂噪声环境下显著提升了说话人验证的鲁棒性与泛化能力。

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

该论文研究了在神经音频编解码器潜在空间中进行语音增强时，连续向量与离散令牌作为训练目标的性能差异，发现预测连续潜在表示优于离散令牌，非自回归模型在效率与可懂度上更具实用性，而结合编码器微调虽能显著提升增强指标，却会牺牲编解码器的重建质量。

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

该论文提出了首个音频 - 视觉世界模型（AVWM）框架，通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集，并设计 AV-CDiT 多模态扩散 Transformer 模型，实现了在精确动作控制下对视听动态的高保真模拟，显著提升了智能体在连续视听导航任务中的表现。

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

该研究通过虚拟环境实验发现，在嘈杂的双人对话中，说话者会通过增加手势复杂度和躯干运动、提高音量来适应噪声，而听者则通过增强头部和躯干动作来优化信噪比，且中等噪声水平会轻微降低手语同步性。

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

本文首次系统研究了离散语音表示（DSRTs）中的口音信息编码，提出了一套包含口音 ABX 测试和跨口音语音转换的评估框架，并发现层的选择对保留口音信息影响最大，而 ASR 监督会显著削弱口音信息，且简单的码本缩减无法有效解耦口音与音素及说话人信息。

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

本文提出了 EDMFormer，一种结合自监督音频嵌入与特定电子舞曲（EDM）数据集（EDM-98）的 Transformer 模型，通过利用能量、节奏和音色变化等 EDM 特有结构特征，显著提升了该流派音乐结构分割（特别是 Drop 和 Buildup 段落）的边界检测与分类性能。

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song BaeWed, 11 Ma🤖 cs.AI

Fish Audio S2 Technical Report

Fish Audio S2 是一款开源的多说话人、多轮次且支持自然语言指令控制的高级文本转语音系统，其通过多阶段训练与数据流水线实现了生产级流式推理（RTF 0.195，首字延迟<100ms），并公开了模型权重、微调代码及基于 SGLang 的推理引擎。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

本文提出了名为 VoxEmo 的综合基准，旨在通过引入分布感知软标签和提示词集成策略，评估语音大语言模型在跨语言、多语料库场景下对情感模糊性的建模能力及其与人类主观分布的契合度。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Universal Speech Content Factorization

本文提出了一种名为通用语音内容分解（USCF）的简单可逆线性方法，该方法通过最小二乘优化学习通用语音到内容的映射，仅需少量目标语音即可在零样本条件下实现说话人音色抑制与语音内容保留，从而在语音转换和文本到语音合成任务中展现出优异的性能。

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess

Gender Fairness in Audio Deepfake Detection: Performance and Disparity Analysis

本文利用 ASVspoof 5 数据集对音频深度伪造检测模型进行了性别公平性分析，发现仅依赖传统指标（如 EER）会掩盖性别间的误差分布差异，而引入公平性指标能更准确地揭示模型在特定人口群体中的失效模式，从而强调构建公平、鲁棒检测系统的必要性。

Aishwarya Fursule, Shruti Kshirsagar, Anderson R. AvilaWed, 11 Ma🤖 cs.AI

Trade-offs Between Capacity and Robustness in Neural Audio Codecs for Adversarially Robust Speech Recognition

该论文研究了神经音频编解码器中残差矢量量化深度对对抗鲁棒性的影响，发现存在容量与鲁棒性之间的非单调权衡，其中中等量化深度能在保留语音内容的同时有效抑制对抗扰动，从而在对抗性攻击下实现最低的转录错误率。

Jordan Prescott, Thanathai Lertpetchpun, Shrikanth NarayananWed, 11 Ma⚡ eess

The Costs of Reproducibility in Music Separation Research: a Replication of Band-Split RNN

本文通过尝试复现未公开代码的 BSRNN 音乐分离模型，揭示了研究可复现性面临的巨大成本，并在此基础上提出了性能更优的改进模型，同时公开了代码与预训练模型以推动该领域的透明与可持续发展。

Paul Magron, Romain Serizel, Constance DouwesWed, 11 Ma🤖 cs.LG

How Contrastive Decoding Enhances Large Audio Language Models?

该研究通过系统评估和引入过渡矩阵框架，揭示了对比解码在修正大音频语言模型“误报无音频”或“不确定性猜测”类错误方面的有效性及其对模型架构的依赖性，从而为根据基线错误特征选择最合适的增强策略提供了明确指导。

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Paralinguistic Emotion-Aware Validation Timing Detection in Japanese Empathetic Spoken Dialogue

该研究提出了一种无需文本上下文、融合副语言信息与情感识别的自监督学习模型，用于检测日语共情对话中的情感验证时机，并在实验证明其显著优于传统语音基线，为构建更具共情能力的人机交互系统提供了纯语音驱动的新路径。

Zi Haur Pang, Yahui Fu, Yuan Gao, Tatsuya KawaharaWed, 11 Ma💻 cs