SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

本文提出了 SAMoE-VLA,一种通过利用鸟瞰图特征而非 Token 嵌入来动态选择专家、并引入条件跨模态因果注意力机制以增强时空一致性的场景自适应视觉 - 语言 - 动作模型,从而在自动驾驶任务中实现了优于现有方法且参数更少的最先进性能。

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

本文介绍了 MV-Fashion 数据集,这是一个包含 3273 个序列、7250 万帧的大规模多视角视频数据集,通过提供真实服装动态、像素级语义标注、3D 点云以及“穿着状态与平铺图像”的配对数据,旨在解决现有数据在虚拟试衣和尺码估计等时尚特定任务中的局限性并建立基准。

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

本文提出了 Edged USLAM,一种结合边缘感知前端与轻量级深度先验的混合视觉惯性系统,旨在通过利用事件相机的高动态范围和时序优势,解决传统 SLAM 在快速运动、低光照及光照突变场景下的失效问题,从而在复杂航拍任务中实现比纯事件或纯学习方法更稳健的定位与建图。

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

该论文针对电磁领域多模态大语言模型面临的数据稀缺、基准缺失及低信噪比鲁棒性不足三大挑战,提出了包含 EM-100k 数据集、EM-Bench 评测基准以及旨在提升低信噪比环境下性能的 MERLIN 训练框架的完整解决方案,并在实验中验证了其卓越性能。

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

该研究针对异构热成像与可见光传感器在无人机检测中的融合难题,提出了注册感知引导图像融合(RGIF)与可靠性门控模态注意力融合(RGMAF)两种策略,通过在 MMFW-UAV 数据集上的实验验证,显著提升了多模态环境下的检测精度与召回率。

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

该研究利用 MICCAI 2024 发布的 UWF4DR 数据集,通过基准测试多种深度学习模型(包括 CNN、ViT 和基础模型)在频域与空域的表现,并结合特征级融合与 Grad-CAM 可解释性分析,验证了超广角成像结合先进深度学习技术在糖尿病视网膜病变及黄斑水肿检测中的卓越性能。

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

SiMO: Single-Modality-Operable Multimodal Collaborative Perception

该论文提出了名为 SiMO 的单模态可操作多模态协同感知框架,通过长度自适应多模态融合(LAMMA)和“预训练 - 对齐 - 融合 - 去相关”训练策略,解决了现有方法在关键传感器(如 LiDAR)缺失时因特征语义不匹配和模态竞争导致的性能下降问题,实现了在模态故障下仍能保持最优的协同感知能力。

Jiageng Wen, Shengjie Zhao, Bing Li, Jiafeng Huang, Kenan Ye, Hao Deng2026-03-10💻 cs