Unified Medical Image Segmentation with State Space Modeling Snake

本文提出了一种名为 Mamba Snake 的新型深度蛇形框架,通过引入状态空间建模、Mamba 演化模块及双分类协同机制,有效解决了统一医学图像分割中多尺度结构异质性与器官间关系建模的难题,并在五个临床数据集上实现了优于现有最先进方法的平均 3% 的 Dice 提升。

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

本文提出了π3π^3,一种无需固定参考视图、采用全排列等变架构的自监督前馈神经网络,通过直接预测仿射不变相机姿态和尺度不变局部点图,在相机位姿估计、单目/视频深度估计及稠密点云重建等任务中实现了最先进的性能。

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

本文提出了一种结合自注意力机制与可解释性可视化的混合 TransUNet-GradCAM 模型,通过融合 Transformer 的全局上下文建模能力与 U-Net 的精细空间定位优势,在多个数据集上实现了具有强泛化能力和高临床相关性的糖尿病足溃疡自动分割。

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

本文提出了 S²Q-VDiT 框架,通过结合感知 Hessian 的显著数据选择与注意力引导的稀疏令牌蒸馏技术,成功解决了视频扩散 Transformer 在量化过程中面临的长序列校准方差高与学习困难问题,实现了 W4A6 量化下的无损性能、3.9 倍模型压缩及 1.3 倍推理加速。

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

本文提出了首个面向光谱遥感影像地物提取的多模态大语言模型 SPEX,通过构建融合光谱先验的指令数据集(SPIE)并引入多尺度特征聚合等创新策略,显著提升了多光谱场景下的地物分类精度与可解释性。

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

该论文提出了一种统一且语义 grounded 的医学图像分割域适应框架,通过构建域无关的解剖学概率流形来解耦图像内容,从而在不依赖显式跨域对齐策略的情况下,在源数据可访问和源数据不可访问两种设置下均实现了具有内在适应性的最先进性能。

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

本文提出了 Video-EM,一种无需训练的事件中心式情节记忆框架,通过利用大语言模型作为主动代理来构建、精炼并验证连贯的事件时间线,从而有效解决现有视频大模型在处理长视频时因上下文限制和孤立帧选择导致的叙事断裂与冗余问题。

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

本文提出了首个统一框架 UniUGG,通过结合大语言模型、潜在扩散模型解码器以及几何 - 语义预训练策略,实现了在 3D 模态下对场景的生成、想象及空间视觉问答任务的统一理解与生成。

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs