Modeling strategies for speech enhancement in the latent space of a neural audio codec

该论文研究了在神经音频编解码器潜在空间中进行语音增强时,连续向量与离散令牌作为训练目标的性能差异,发现预测连续潜在表示优于离散令牌,非自回归模型在效率与可懂度上更具实用性,而结合编码器微调虽能显著提升增强指标,却会牺牲编解码器的重建质量。

Sofiene Kammoun, Xavier Alameda-Pineda, Simon LeglaiveWed, 11 Ma⚡ eess

From Demonstrations to Safe Deployment: Path-Consistent Safety Filtering for Diffusion Policies

该论文提出了一种名为 PACS 的路径一致性安全过滤方法,通过基于集合可达性分析对扩散策略生成的轨迹进行一致性制动,在动态环境中为机器人提供形式化安全保证的同时,有效避免了传统安全机制因偏离训练分布而导致的任务性能下降。

Ralf Römer, Julian Balletshofer, Jakob Thumm, Marco Pavone, Angela P. Schoellig, Matthias AlthoffWed, 11 Ma⚡ eess

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

该论文针对卫星遥感图像中船舶检测面临的尺度差异大和长宽比高等挑战,提出了一种名为 LiM-YOLO 的轻量化检测器,通过统计船舶尺度分布将检测头从传统的 P3-P5 层级调整为 P2-P4 层级以满足奈奎斯特采样条件,并引入组归一化线性投影模块以解决小批量训练下的梯度不稳定问题,从而在显著减少参数量的同时实现了优于现有方法的检测精度。

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

本文提出了名为 CoPeDiT 的通用潜在扩散模型,通过引入具备完整性感知能力的自编码器(CoPeVAE)和专用的 3D 扩散 Transformer 架构(MDiT3D),无需依赖外部手动指示即可自主推断缺失状态,从而实现了在多种缺失模式下具有高保真度和语义一致性的统一 3D MRI 合成。

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

Mobile Base Station Optimal Tour in Wide Area IoT Sensor Networks

本文针对广域物联网传感器网络中无人机移动基站能耗受限的问题,提出了最小成本非重复访问的“移动基站最优路径(MOT)”问题,将其建模为 NP 完全问题,并设计了一种兼顾旅行成本与覆盖增益的多项式时间贪心启发式算法,仿真表明该算法在路径长度与执行时间的综合性能上比现有方法提升了 39.15%。

Sachin KadamWed, 11 Ma⚡ eess

Universal Speech Content Factorization

本文提出了一种名为通用语音内容分解(USCF)的简单可逆线性方法,该方法通过最小二乘优化学习通用语音到内容的映射,仅需少量目标语音即可在零样本条件下实现说话人音色抑制与语音内容保留,从而在语音转换和文本到语音合成任务中展现出优异的性能。

Henry Li Xinyuan, Zexin Cai, Lin Zhang, Leibny Paola García-Perera, Berrak Sisman, Sanjeev Khudanpur, Nicholas Andrews, Matthew WiesnerWed, 11 Ma⚡ eess