Unified Medical Image Segmentation with State Space Modeling Snake

Il paper presenta Mamba Snake, un nuovo framework di deep snake basato sulla modellazione degli spazi di stato che risolve le sfide dell'segmentazione medica unificata modellando le relazioni topologiche inter-organo e affinando i contorni microscopici, ottenendo prestazioni superiori rispetto agli stati dell'arte su cinque dataset clinici.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Il paper introduce π3\pi^3, una rete neurale feed-forward permutazionalmente equivariante che supera i limiti dei metodi basati su una vista di riferimento fissa, ottenendo prestazioni all'avanguardia nella ricostruzione geometrica visiva, nella stima della posa della camera e nella profondità senza bisogno di frame di riferimento.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Questo studio propone un framework di deep learning basato su Vision Transformer (ViT) che, utilizzando immagini Sentinel-2 e Formosat-5 e un approccio di apprendimento semi-supervisionato per espandere le annotazioni manuali, migliora la segmentazione delle aree colpite da disastri naturali, ottimizzando così il prodotto EVAP dell'Agenzia Spaziale Taiwanese (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Questo studio presenta TransUNet-GradCAM, un modello ibrido Transformer-U-Net che combina meccanismi di attenzione globale e locali per ottenere un'accurata segmentazione e visualizzazione spiegabile delle ulcere diabetiche del piede, dimostrando elevate prestazioni e robusta trasferibilità su dataset clinici esterni senza necessità di riaddestramento.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Il paper presenta S²Q-VDiT, un framework di quantizzazione post-addestramento per trasformatori di diffusione video che combina la selezione di dati salienti basata sull'elmo Hessiano e la distillazione di token sparsi guidata dall'attenzione per ottenere prestazioni senza perdite, una compressione del modello di 3,9 volte e un'accelerazione dell'inferenza di 1,3 volte.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Il paper presenta SPEX, il primo modello linguistico-visivo multimodale progettato per l'estrazione della copertura del suolo da immagini remote multispettrali, che supera le tecniche esistenti sfruttando informazioni spettrali codificate in un nuovo dataset di istruzioni (SPIE) e offrendo spiegazioni testuali per migliorare l'interpretabilità.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Questo lavoro presenta la prima valutazione di metodi di 3D Gaussian Splatting su immagini fisheye reali con campo visivo superiore a 180°, dimostrando che una configurazione a 160° ottimizza il compromesso tra copertura e qualità, e introducendo un'inizializzazione basata sulla profondità tramite UniK3D che supera i limiti dello SfM in condizioni di distorsione estrema e scenari complessi.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Questo lavoro introduce un framework unificato e semanticamente fondato per l'adattamento di dominio nella segmentazione di immagini mediche, che supera la tradizionale separazione tra impostazioni con e senza accesso ai dati sorgente apprendendo una varietà probabilistica di regolarità anatomiche per ottenere prestazioni all'avanguardia e interpretabilità in entrambi gli scenari.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Il paper presenta Video-EM, un framework di memoria episodica senza addestramento che migliora la comprensione di video lunghi trasformando la selezione di fotogrammi in una costruzione di eventi temporali coerenti e verificati, permettendo ai modelli linguistici video esistenti di ragionare su contesti estesi senza modifiche architetturali.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Il paper introduce UniUGG, il primo framework unificato per la comprensione e la generazione di contenuti 3D che combina un LLM, un decoder spaziale basato su modelli di diffusione latente e una strategia di apprendimento geometrico-semantico per migliorare sia l'analisi visiva spaziale che la creazione di scene 3D.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Il paper presenta PointSlice, un nuovo metodo di rappresentazione basato su fette per la rilevazione di oggetti 3D da nuvole di punti che, bilanciando precisione ed efficienza attraverso una conversione in dati 2D e una rete di interazione tra fette, supera i compromessi tradizionali tra metodi basati su voxel e pilastri.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Il paper presenta Traffic-MLLM, un framework di apprendimento supervisionato regolarizzato dalla curiosità che, integrando dati video dinamici e domande-visive su larga scala, apprende uno spazio di casi strutturato per migliorare il ragionamento multimodale e la robustezza nei scenari di guida autonomi senza ricorrere al recupero esplicito dei casi.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs