OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

本文介绍了 OSUM-Pangu,这是一个基于 OpenPangu-7B 大语言模型并在昇腾 NPU 全栈非 CUDA 环境下构建的开源多维语音理解基础模型,其通过分阶段训练策略实现了与主流 GPU 模型相当的任务准确率,为开源语音社区提供了可复现的非 CUDA 基准。

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

该论文针对多模态大语言模型在长上下文场景中因视觉 token 注意力随文本序列增长而衰减(即“视觉淡化”)的问题,提出了一种基于模态交互解耦的模态间距离不变位置编码(DIPE)方法,通过保留模态内相对位置并固定模态间感知邻近性,有效消除了模态间距离带来的惩罚,从而显著提升了模型在长上下文中的视觉 grounding 能力。

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

该研究通过对 81 名参与团队软件项目的学生进行四轮调查,发现开发者对文本消息的情感感知具有显著的个体内波动性和语句依赖性,且情绪特质与反应性等因素虽能微弱影响正面感知,但整体关联信号较弱,提示在解读情感分析结果时需警惕语境缺失带来的歧义。

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt Schneider2026-03-12💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

本文介绍了 VoxCare 系统,该系统利用可穿戴设备在实时不存储原始音频的前提下,通过提取声学特征和语音基础模型指导的框架,对医院医护人员的自然沟通行为进行量化分析,从而揭示沟通模式与工作压力及负荷之间的关系,为优化医疗交付提供数据支持。

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth Narayanan2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

本文提出了名为 CBCTRepD 的双语口腔颌面 CBCT 报告生成系统,该系统基于大规模高质量配对数据构建,并通过临床验证证明其不仅能生成达到中级放射科医生水平的报告草稿,还能在放射科医生与 AI 协作中显著提升不同经验水平医生的诊断质量并减少漏诊。

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs