Unified Medical Image Segmentation with State Space Modeling Snake

Die Arbeit stellt „Mamba Snake" vor, ein neuartiges Deep-Snake-Framework, das State-Space-Modelle nutzt, um durch die Modellierung interner topologischer Beziehungen und adaptiver Konturverfeinerung die Herausforderungen der einheitlichen medizinischen Bildsegmentierung zu meistern und dabei die Leistung gegenüber aktuellen Methoden signifikant zu steigern.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Die Arbeit stellt I¨€3π^3 vor, ein feed-forward neuronales Netzwerk mit vollständig permutationsäquivarianter Architektur, das durch den Verzicht auf feste Referenzansichten robustere und genauere Ergebnisse bei Aufgaben der visuellen Geometrie wie Kamerapose-Schätzung und Tiefenrekonstruktion erzielt.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Die Studie stellt ein auf Vision Transformern (ViT) basierendes Deep-Learning-Framework vor, das mithilfe von Sentinel-2- und Formosat-5-Bilddaten sowie einer schwach überwachten Trainingsstrategie die Segmentierung von Katastrophengebieten für das EVAP-Programm der Taiwan Space Agency verbessert und dabei die Zuverlässigkeit und räumliche Kohärenz der Ergebnisse erhöht.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Diese Studie stellt TransUNet-GradCAM vor, einen hybriden Transformer-U-Net-Ansatz mit Selbstattention und erklärbarer Visualisierung, der durch die Integration globaler Kontextinformationen und lokaler Details eine robuste und generalisierbare Segmentierung von diabetischen Fußulzera ermöglicht.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Die Arbeit stellt S²Q-VDiT vor, ein Nachtrainierungs-Quantisierungsframework für Video-Diffusions-Transformer, das durch saliente Datenselektion und sparse Token-Distillation eine verlustfreie Leistung bei 4-Bit-Gewichten und 6-Bit-Aktivierungen mit signifikant reduzierten Speicher- und Rechenkosten erreicht.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Das Paper stellt SPEX vor, ein multimodales Vision-Language-Modell, das mithilfe des neuartigen SPIE-Datensatzes und spezieller Trainingsstrategien erstmals spektrale Informationen nutzt, um eine präzise, instruktionsgesteuerte Landbedeckungsextraktion aus multispektralen Fernerkundungsbildern mit erklärenden Texten zu ermöglichen.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Diese Arbeit stellt die erste Bewertung von 3D-Gaussian-Splatting-Methoden auf realen Fisheye-Bildern mit einem Sichtfeld über 180° vor, zeigt, dass 160° die optimale Balance zwischen Abdeckung und Qualität bieten, und führt eine neue, auf UniK3D basierende Tiefen-Initialisierung ein, die die oft fehlschlagende SfM-Initialisierung bei extremen Verzerrungen erfolgreich ersetzt.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Die Autoren stellen ein einheitliches, semantisch fundiertes Framework vor, das durch das Erlernen eines domainsunabhängigen probabilistischen Mannigfaltigkeitsraums anatomischer Regularitäten sowohl source-accessible als auch source-free Domain-Adaptation für die medizinische Bildsegmentierung ermöglicht und dabei state-of-the-art-Ergebnisse in beiden Szenarien erzielt.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Das Paper stellt Video-EM vor, ein trainingsfreies Framework, das durch die Orchestrierung von LLMs und Werkzeugen zur ereignisbasierten Konstruktion und Verfeinerung einer kompakten episodischen Gedächtnisrepräsentation die Herausforderungen des Verständnisses langer Videos für bestehende Video-LLMs löst.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Die Arbeit stellt UniUGG vor, das erste einheitliche Framework für das Verständnis und die Generierung von 3D-Daten, welches durch einen räumlichen Decoder auf Basis eines latenten Diffusionsmodells und eine geometrisch-semantische Lernstrategie hochwertige 3D-Szenen erzeugt und räumliche VQA-Aufgaben löst.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Die Arbeit stellt PointSlice vor, eine neuartige, auf horizontalen Schnitten basierende Methode zur 3D-Objekterkennung aus Punktwolken, die durch eine effiziente 2D-Datenrepräsentation und ein Slice-Interaktions-Netzwerk (SIN) eine überlegene Balance zwischen Detektionsgenauigkeit und Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Voxel- und Säulen-basierten Ansätzen erreicht.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Die Arbeit stellt Traffic-MLLM vor, ein retrieval-freies Framework für multimodales Verkehrsreasoning, das durch curiosity-gesteuertes, überwachtes Lernen auf einer multi-quelligenen Datenbasis eine generalisierbare Fallraum-Repräsentation erlernt und damit die Robustheit von autonomen Fahrsystemen in langschwanzigen Szenarien verbessert.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Die Arbeit stellt SAGA vor, eine Methode zur selektiven adaptiven Gating, die die Effizienz und Ausdruckskraft linearer Aufmerksamkeit für Vision-Transformer verbessert, indem sie durch lernbare Gatter die uniforme Kompression von Key-Value-Informationen vermeidet und so sowohl die Rechenleistung als auch die Genauigkeit bei der Verarbeitung hochauflösender Bilder signifikant steigert.

Yuan Cao, Dong Wang2026-03-10💻 cs