IGLU: The Integrated Gaussian Linear Unit Activation Function

本文提出了一种名为 IGLU 的新型参数化激活函数,它基于半正态混合分布推导得出,利用具有重尾特性的柯西累积分布函数作为门控机制,在理论上解决了梯度消失问题并实现了从类恒等到类 ReLU 行为的平滑插值,同时通过高效的有理近似版本 IGLU-Approx 在多种视觉和语言模型任务中实现了媲美或超越 ReLU 与 GELU 的性能,且显著降低了计算成本。

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

本文提出了一种名为 DLRMamba 的轻量化模型,通过引入低秩二维选择性状态空间模块(Low-Rank SS2D)和结构感知蒸馏策略,有效解决了现有 Mamba 模型在边缘设备上进行多光谱融合目标检测时的参数冗余与细粒度信息丢失问题,实现了在资源受限硬件上效率与精度的显著平衡。

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

本文提出了 HIERAMP 方法,利用视觉自回归(VAR)模型的由粗到细生成特性,通过在不同尺度注入类令牌来动态识别显著区域并放大语义,从而在无需显式优化全局邻近性的情况下,显著提升了生成式数据集蒸馏的效果。

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

该研究开发了一套分析流程,利用 nnU-Net 模型从前列腺癌 3D 组织数据中提取与神经周围和淋巴血管侵袭相关的形态学特征,并证明这些 3D 特征在预测生化复发方面的表现优于传统的 2D 特征。

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

该论文提出了一种名为虚拟术中 CT(viCT)的新方法,通过利用单目内镜视频生成 3D 重建并与其术前 CT 配准,实现了在鼻内镜手术过程中无需额外硬件即可动态更新解剖结构,从而有效解决了传统静态影像无法反映组织切除变化导致手术不彻底的问题。

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

本文提出了 SurgCUT3R 框架,通过构建基于公开立体数据集的大规模伪真深度数据生成管线、采用混合监督策略以及设计分层推理架构,有效解决了单目内窥镜视频在手术场景下因缺乏监督数据及长序列累积漂移导致的 3D 重建难题,实现了兼具高精度与高效率的手术场景连续理解。

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

本文提出了 T2SGrid 框架,通过将视频片段内的帧按时间顺序重组为复合网格图像,将视频时序理解转化为空间理解任务,从而有效解决了现有方法在时序建模中面临的计算开销大、注意力稀疏及空间细节丢失等问题,并在视频时序定位基准上取得了优越性能。

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

该论文提出利用预对齐的多模态编码器(如 OpenShape 与 Point-BERT)结合多模态硬对比学习(HCL),在无需视图合成或目标数据库重训练的情况下,实现了图像到 3D 形状的零样本及监督检索,并在多个数据集上取得了超越现有方法的性能。

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

该论文提出了一种感知感知的多模态空间推理框架,通过引入视觉参考令牌(VRT)实现对象级 grounding 并构建多模态思维链数据集,仅凭标准监督微调便在 SURDS 基准测试中大幅超越了包括强化学习后训练在内的现有方法,显著提升了单目驾驶场景下的空间理解能力。

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

本文发布了首个专注于 ADAS 向人工接管过渡的大规模自然驾驶数据集 ADAS-TO,该数据集包含来自 327 名驾驶员的 15,659 个同步视频与 CAN 日志片段,并通过结合运动学筛选与视觉语言模型分析,揭示了关键接管事件中的风险特征及提前 3 秒出现可操作视觉线索的规律,为开发语义感知预警系统提供了重要依据。

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs