ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-aware Speech-to-Speech Interaction
该论文提出了 ParaS2S 框架,通过构建 ParaS2SBench 基准、设计抗风格幻觉的多阶段自动评估器以及采用强化学习策略,有效解决了现有语音到语音模型在情感、语调等副语言线索感知与响应方面的不足,显著提升了对话内容与风格的适配性。
174 篇论文
该论文提出了 ParaS2S 框架,通过构建 ParaS2SBench 基准、设计抗风格幻觉的多阶段自动评估器以及采用强化学习策略,有效解决了现有语音到语音模型在情感、语调等副语言线索感知与响应方面的不足,显著提升了对话内容与风格的适配性。
该论文通过解析首次到达位置通道的精确密度,揭示了非零漂移如何使噪声分布从重尾的柯西分布过渡到指数衰减,并定义了区分扩散主导与漂移主导机制的特征传播距离。
本文针对具有多天线窃听者和多天线感知接收机的 MIMO 一体化感知通信系统,分析了其性能极限并推导了准最优预编码器的结构,进而提出了一种结合序贯基构建与功率分配的两阶段迭代算法,以有效解决非凸加权速率最大化问题并显著提升系统性能。
该论文提出了首个临床脑电到语言的基础模型 CELM,利用包含近万份报告的大规模数据集,实现了从长时程、变长脑电记录到多维度临床报告的端到端自动生成,并在标准生成指标上取得了显著性能提升。
该论文提出了一种物理信息驱动的深度展开全波形反演(DUFWI)方法,通过从数据中学习更新规则,在显著降低计算成本的同时克服了传统反演方法的局部极小值问题,实现了基于超声原始通道数据的实时水肿检测与声速重建。
该研究提出了一种融合 MGWR、随机森林和时空图卷积网络的 GeoAI 混合分析框架,通过实证分析揭示了土地利用与多模式交通流之间复杂的空间异质性相互作用,显著提升了预测精度并识别出五种功能各异的交通类型,为制定基于证据的多模态交通管理和土地利用政策提供了可解释的工具。
本文全面综述了堆叠智能超表面(SIM)技术,涵盖其物理原理、建模框架、硬件实现及在 6G 通信中的关键应用,并探讨了相关挑战与未来研究方向。
本文推导了窗函数离散傅里叶变换(DFT)相量估计器在幅值和相位调制下的完整复频响应,揭示了其对振荡分量产生的频率相关衰减与相移,并提出了一种利用已知复增益从 PMU 数据中恢复真实振荡幅值和相位的校正方法。
该论文探讨了面向 6G 的可持续物理层波形方案,通过融合正交性与非正交性提出 SC-OFDM 和 SC-NOFS 两种格式,并论证了具备 2D 时频预编码能力的 SC-NOFS 在频谱效率、低时延及高移动性等方面更具优势,是下一代通信的强力候选方案。
本文综述了堆叠智能超表面(SIM)在下一代网络中通过波域计算实现通信、感知与计算联合设计的最新进展、应用案例,并探讨了其面临的挑战与未来发展方向。
该论文针对里德堡原子接收器(RAQRs)非高斯且相位盲的测量特性,建立了多拍量子传感统计模型,推导了最优及实用的似然比检测器,并证明仅需 5-10 次量子测量即可显著提升弱射频信号检测性能,使其远超经典能量检测器。
本文通过分析 ISAC 系统中基于信道状态信息的电磁逆散射问题的病态性根源,提出了一种结合线性采样法与约束子空间二次规划的 ROI 受限重建框架,有效改善了矩阵条件数并显著提升了材料重构的鲁棒性与计算效率。
本文针对可重构智能表面辅助的上中频段 MIMO 系统中因近场传播和过渡散射导致的信道估计病态难题,提出了一种无需稀疏假设的“条件感知”估计框架,通过贪婪列分组和分段 RIS 相位设计将高维病态问题转化为多个良态子问题,从而在低导频开销下显著提升了估计性能。
本文提出了一种具备单元件放大功能的星型超表面(STAR)非对角 RIS 物理信号模型,并设计了一种基于交替优化的加权最小均方误差(WMMSE)算法,在满足硬件约束和功率预算的前提下实现了下行链路和速率的最大化。
本文针对支持光声混合传输的水下能量收集中继网络,提出了一种基于模型强化学习的功率分配策略,以在存在窃听者且光链路可能受阻的复杂环境下最大化长期保密通信性能。
本文提出了 StreamVoiceAnon+,一种通过监督微调结合帧级情感蒸馏的流式说话人匿名化方法,在保持低延迟和强隐私保护的同时,显著提升了情感内容的保留能力。
本文提出了一种融合检索与学习的统一指纹定位框架,通过信道绘图将高维信道状态信息映射至低维潜在空间以实现高效检索,并借助图注意力网络显式建模查询点与参考点间的关联,从而在复杂场景下显著提升了无线定位的精度与可扩展性。
该论文分析了连续孔径阵列(CAPA)在瑞利衰落信道下的保密性能,推导了不同窃听者场景下的保密速率与中断概率表达式,证明了其高信噪比性能优势,并通过仿真证实了 CAPA 系统相比传统离散阵列具有更高的保密速率和更低的保密中断概率。
该论文提出了 MAD(多模态情感数据集),这是一个包含同步采集的多种生理信号(如 EEG、ECG 等)与三视角 RGB-D 面部视频、并采用涵盖刺激诱发、主观认知及行为表达三级情感标注框架的多模态情感数据集,旨在为情感计算与神经生理建模提供可靠的多层次基准资源。
本文针对枕式心冲击图(BCG)中 J 波检测任务,构建了一个多受试者多夜次的公开数据集,并提出了一种基于集合预测的框架,通过直接将峰值建模为离散时间事件,在显著降低模型复杂度的同时实现了优于传统分割基线的检测性能。