eess.AS 篇论文 | Gist.Science

Textless and Non-Parallel Speech-to-Speech Emotion Style Transfer

本文提出了一种名为 S2S-ZEST 的无文本、非平行语音到语音零样本情感风格迁移框架，该框架通过分析 - 合成流水线提取语义、说话人和情感表征，在保留源语音内容与说话人身份的同时，成功将参考语音的情感风格迁移至目标语音，并在情感迁移效果及情感识别数据增强应用上优于现有方法。

Soumya Dutta, Avni Jain, Sriram GanapathyWed, 11 Ma⚡ eess

Fast-Converging Distributed Signal Estimation in Topology-Unconstrained Wireless Acoustic Sensor Networks

本文提出了一种名为 TI-DANSE+ 的改进算法，通过利用邻居节点的局部部分和及树剪枝策略，解决了原有拓扑无关分布式信号估计算法收敛慢的问题，使其在保持拓扑鲁棒性的同时实现了更快的收敛速度并节省了通信带宽。

Paul Didier, Toon van Waterschoot, Simon Doclo, Jörg Bitzer, Marc MoonenWed, 11 Ma⚡ eess

Human-CLAP: Human-perception-based contrastive language-audio pretraining

该论文指出传统 CLAP 评分与人类主观评价相关性较低，并提出了一种基于人类感知的主观评分训练的 Human-CLAP 模型，使其与主观评价的斯皮尔曼等级相关系数提升了 0.25 以上。

Taisei Takano, Yuki Okamoto, Yusuke Kanamori, Yuki Saito, Ryotaro Nagase, Hiroshi SaruwatariWed, 11 Ma⚡ eess

Benchmarking Humans and Machines on Complex Multilingual Speech Understanding Tasks

该研究提出了一种多语言混合语音问答范式，发现人类在母语中凭借选择性注意能更有效地处理复杂声景，而语音大语言模型虽在单 speaker 条件下表现优异，但在多 speaker 场景下的选择性注意力机制上仍与人类存在显著差异。

Sai Samrat Kankanala, Ram Chandra, Sriram GanapathyWed, 11 Ma⚡ eess

Evaluating pretrained speech embedding systems for dysarthria detection across heterogenous datasets

该论文通过跨验证和零假设检验，评估了 17 种预训练语音嵌入系统在 6 个异构数据集上检测构音障碍的表现，揭示了数据集选择对基准测试结果的显著影响以及跨数据集泛化能力的不足，从而对基于同数据集训练测试的临床系统有效性提出了质疑。

Lovisa Wihlborg, Jemima Goodall, David Wheatley, Jacob J. Webber, Johnny Tam, Christine Weaver, Suvankar Pal, Siddharthan Chandran, Sohan Seth, Oliver Watts, Cassia Valentini-BotinhaoWed, 11 Ma⚡ eess

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

本文提出了 VSSFlow，一种基于流匹配的联合学习框架，通过引入解耦条件聚合机制，成功统一了视频到声音和视频文本到语音生成任务，并在端到端联合训练中实现了超越现有专用基线的性能。

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

VoiceBridge: General Speech Restoration with One-step Latent Bridge Models

本文提出了 VoiceBridge，一种基于能量保持变分自编码器、联合神经先验及桥接训练目标的一步潜在桥接模型，能够利用单一潜在生成过程高效恢复从去噪、超分到合成语音优化等多种失真场景下的高质量全频带语音。

Chi Zhang, Kaiwen Zheng, Zehua Chen, Jun ZhuWed, 11 Ma🤖 cs.AI

Latent Speech-Text Transformer

该论文提出了潜语音 - 文本 Transformer（LST），通过将离散语音令牌聚合为更高阶的潜语音补丁，解决了语音与文本模态间的序列长度不平衡问题，从而在提升计算效率的同时显著增强了跨模态对齐能力，并在语音理解、生成及下游任务中实现了性能与效率的双重优化。

Yen-Ju Lu, Yashesh Gaur, Wei Zhou, Benjamin Muller, Jesus Villalba, Najim Dehak, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Srinivasan Iyer, Duc LeWed, 11 Ma🤖 cs.AI

Noise-Conditioned Mixture-of-Experts Framework for Robust Speaker Verification

该论文提出了一种噪声条件混合专家框架，通过噪声感知专家路由、通用模型专家专业化策略及信噪比衰减课程学习协议，将特征空间分解为专用子空间，从而在复杂噪声环境下显著提升了说话人验证的鲁棒性与泛化能力。

Bin Gu, Haitao Zhao, Jibo WeiWed, 11 Ma⚡ eess

Modeling strategies for speech enhancement in the latent space of a neural audio codec

该论文研究了在神经音频编解码器潜在空间中进行语音增强时，连续向量与离散令牌作为训练目标的性能差异，发现预测连续潜在表示优于离散令牌，非自回归模型在效率与可懂度上更具实用性，而结合编码器微调虽能显著提升增强指标，却会牺牲编解码器的重建质量。

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

WhisperVC: Decoupled Cross-Domain Alignment and Speech Generation for Low-Resource Whisper-to-Normal Conversion

本文提出了 WhisperVC，一种针对低资源场景的三阶段框架，通过解耦跨域对齐与语音生成，利用 Conformer-VAE 提取域不变语义表征并结合仅基于正常语音训练的生成模型，实现了高质量的耳语转正常语音转换。

Dong Liu, Juan Liu, Wei Ju, Yao Tian, Ming LiWed, 11 Ma⚡ eess

Multiplexing Neural Audio Watermarks

该论文提出了一种结合多种水印技术的多路复用范式，包括无训练的感知自适应时频多路复用（PA-TFM）和基于模型学习的 MaskNet 框架，旨在通过利用技术互补性显著提升音频水印在神经重建及对抗攻击等复杂场景下的鲁棒性。

Zheqi Yuan, Yucheng Huang, Guangzhi Sun, Zengrui Jin, Chao ZhangWed, 11 Ma⚡ eess

Head, posture, and full-body gestures in unscripted dyadic conversations in noise

该研究通过虚拟环境实验发现，在嘈杂的双人对话中，说话者会通过增加手势复杂度和躯干运动、提高音量来适应噪声，而听者则通过增强头部和躯干动作来优化信噪比，且中等噪声水平会轻微降低手语同步性。

Luboš Hládek, Bernhard U. SeeberWed, 11 Ma⚡ eess

Rethinking Discrete Speech Representation Tokens for Accent Generation

本文首次系统研究了离散语音表示（DSRTs）中的口音信息编码，提出了一套包含口音 ABX 测试和跨口音语音转换的评估框架，并发现层的选择对保留口音信息影响最大，而 ASR 监督会显著削弱口音信息，且简单的码本缩减无法有效解耦口音与音素及说话人信息。

Jinzuomu Zhong, Yi Wang, Korin Richmond, Peter BellWed, 11 Ma⚡ eess

Bottleneck Transformer-Based Approach for Improved Automatic STOI Score Prediction

该论文提出了一种基于瓶颈 Transformer 架构的新方法，通过结合卷积块与多头自注意力机制来预测短时客观可懂度（STOI）指标，在无需参考语音的非侵入式评估中，其表现优于现有的自监督学习模型。

Amartyaveer, Murali Kadambi, Chandra Mohan Sharma, Anupam Mondal, Prasanta Kumar GhoshWed, 11 Ma🤖 cs.LG

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

本文提出了名为 VoxEmo 的综合基准，旨在通过引入分布感知软标签和提示词集成策略，评估语音大语言模型在跨语言、多语料库场景下对情感模糊性的建模能力及其与人类主观分布的契合度。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

该论文针对真实世界中音视频分布动态演变的挑战，首次提出了一个无样本的音视频分割持续学习基准，并设计了结合音频引导预融合条件与低秩锚定技术的 ATLAS 基线模型，以在避免灾难性遗忘的同时实现持续感知。

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

eess.AS