Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Deze paper introduceert een nieuw VLM-geleid cascadekader voor Open-Vocabulary Camouflaged Object Segmentation dat de Segment Anything Model (SAM) stuurt met VLM-features voor nauwkeurigere segmentatie en een zachte ruimtelijke prior gebruikt om het domeinverschil bij classificatie te overbruggen, waardoor zowel de lokalisatie als de classificatie van gecamoufleerde objecten aanzienlijk verbetert.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Dit paper introduceert π3π^3, een voeding-neuraal netwerk dat gebruikmaakt van een volledig permutatie-equivariante architectuur om visuele geometrie te reconstrueren zonder afhankelijkheid van een vaste referentiebeeld, wat leidt tot robuustere en state-of-the-art prestaties bij taken zoals camerapositieschatting en diepteanalyse.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Dit paper introduceert een op Vision Transformers gebaseerd framework dat, door gebruik te maken van Sentinel-2 en Formosat-5-beelden en een zwak-toezichtstrategie met PCA en een betrouwbaarheidsindex, de segmentatie van door rampen getroffen gebieden verbetert om de EVAP-producten van het Taiwan Space Agency te ondersteunen.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Dit artikel introduceert TransUNet-GradCAM, een hybride Transformer-U-Net-model dat door het combineren van globale en lokale kenmerken een robuuste en verklaarbare segmentatie van diabetische voetzweren mogelijk maakt, wat wordt onderbouwd door sterke prestaties op zowel interne als externe datasets.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Dit paper introduceert S2^2Q-VDiT, een post-training kwantisatiekader voor video-diffusietransformators dat gebruikmaakt van hessiaan-gevoelige saliente dataselectie en op aandacht gebaseerde distillatie van schaarse tokens om verliesvrije prestaties te bereiken met aanzienlijke compressie en versnelling.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Dit artikel presenteert de eerste evaluatie van 3D Gaussian Splatting op echte fisheye-beelden met een gezichtsveld boven de 180°, waarbij wordt aangetoond dat 160° de optimale balans biedt en dat een nieuwe, op diepte gebaseerde initialisatie met UniK3D de beperkingen van Structure-from-Motion bij extreme hoeken effectief overwint.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Deze paper introduceert een unificerend, semantisch onderbouwd raamwerk voor medische beeldsegmentatie dat, door het leren van een domein-agnostische probabilistische variëteit van anatomische regelmatigheden, zowel bron-gebaseerde als bron-vrije domeinadaptatie mogelijk maakt zonder expliciete kruis-domeinafstemming en zo state-of-the-art resultaten bereikt.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs