MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

MTVCraft introduceert het eerste framework dat ruwe 3D-motiesequenties (4D-beweging) direct modelleert via een nieuwe tokenisatie-methode en een bewegingsbewust Video DiT, waardoor er robuustere, flexibele en schaalbare karakteranimatie mogelijk is met ongeëvenaarde zero-shot generalisatie voor willekeurige personages en objecten.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Deze paper introduceert een nieuw VLM-geleid cascadekader voor Open-Vocabulary Camouflaged Object Segmentation dat de Segment Anything Model (SAM) stuurt met VLM-features voor nauwkeurigere segmentatie en een zachte ruimtelijke prior gebruikt om het domeinverschil bij classificatie te overbruggen, waardoor zowel de lokalisatie als de classificatie van gecamoufleerde objecten aanzienlijk verbetert.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Dit paper introduceert π3π^3, een voeding-neuraal netwerk dat gebruikmaakt van een volledig permutatie-equivariante architectuur om visuele geometrie te reconstrueren zonder afhankelijkheid van een vaste referentiebeeld, wat leidt tot robuustere en state-of-the-art prestaties bij taken zoals camerapositieschatting en diepteanalyse.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Dit paper introduceert een op Vision Transformers gebaseerd framework dat, door gebruik te maken van Sentinel-2 en Formosat-5-beelden en een zwak-toezichtstrategie met PCA en een betrouwbaarheidsindex, de segmentatie van door rampen getroffen gebieden verbetert om de EVAP-producten van het Taiwan Space Agency te ondersteunen.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Dit artikel introduceert TransUNet-GradCAM, een hybride Transformer-U-Net-model dat door het combineren van globale en lokale kenmerken een robuuste en verklaarbare segmentatie van diabetische voetzweren mogelijk maakt, wat wordt onderbouwd door sterke prestaties op zowel interne als externe datasets.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs