π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Dit paper introduceert π3π^3, een voeding-neuraal netwerk dat gebruikmaakt van een volledig permutatie-equivariante architectuur om visuele geometrie te reconstrueren zonder afhankelijkheid van een vaste referentiebeeld, wat leidt tot robuustere en state-of-the-art prestaties bij taken zoals camerapositieschatting en diepteanalyse.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Dit paper introduceert een op Vision Transformers gebaseerd framework dat, door gebruik te maken van Sentinel-2 en Formosat-5-beelden en een zwak-toezichtstrategie met PCA en een betrouwbaarheidsindex, de segmentatie van door rampen getroffen gebieden verbetert om de EVAP-producten van het Taiwan Space Agency te ondersteunen.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Dit artikel introduceert TransUNet-GradCAM, een hybride Transformer-U-Net-model dat door het combineren van globale en lokale kenmerken een robuuste en verklaarbare segmentatie van diabetische voetzweren mogelijk maakt, wat wordt onderbouwd door sterke prestaties op zowel interne als externe datasets.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Dit paper introduceert S2^2Q-VDiT, een post-training kwantisatiekader voor video-diffusietransformators dat gebruikmaakt van hessiaan-gevoelige saliente dataselectie en op aandacht gebaseerde distillatie van schaarse tokens om verliesvrije prestaties te bereiken met aanzienlijke compressie en versnelling.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Dit artikel presenteert de eerste evaluatie van 3D Gaussian Splatting op echte fisheye-beelden met een gezichtsveld boven de 180°, waarbij wordt aangetoond dat 160° de optimale balans biedt en dat een nieuwe, op diepte gebaseerde initialisatie met UniK3D de beperkingen van Structure-from-Motion bij extreme hoeken effectief overwint.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Deze paper introduceert een unificerend, semantisch onderbouwd raamwerk voor medische beeldsegmentatie dat, door het leren van een domein-agnostische probabilistische variëteit van anatomische regelmatigheden, zowel bron-gebaseerde als bron-vrije domeinadaptatie mogelijk maakt zonder expliciete kruis-domeinafstemming en zo state-of-the-art resultaten bereikt.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Het paper introduceert Video-EM, een trainingsvrij, gebeurtenisgericht raamwerk dat lange video's omzet in een compacte, tijdsgebonden episodische geheugenreeks door middel van een zelfreflecterende LLM-agent, waardoor bestaande Video-LLMs effectiever langdurige videovragen kunnen beantwoorden zonder extra training.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Dit paper introduceert UniUGG, het eerste geïntegreerde raamwerk dat een LLM en een latente diffusiemodel combineert om zowel 3D-generatie als ruimtelijk visueel vraag-antwoord (VQA) mogelijk te maken door middel van een geometrisch-semantische leerstrategie.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

PointSlice introduceert een nieuwe slice-gebaseerde representatie en een Slice Interaction Network om 3D-objectdetectie uit puntwolken te versnellen en de parameter-efficiëntie te verbeteren, terwijl de nauwkeurigheid op grote datasets zoals Waymo, nuScenes en Argoverse 2 behouden blijft.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs