MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

MTVCraft introduceert het eerste framework dat ruwe 3D-motiesequenties (4D-beweging) direct modelleert via een nieuwe tokenisatie-methode en een bewegingsbewust Video DiT, waardoor er robuustere, flexibele en schaalbare karakteranimatie mogelijk is met ongeëvenaarde zero-shot generalisatie voor willekeurige personages en objecten.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Deze paper introduceert een nieuw VLM-geleid cascadekader voor Open-Vocabulary Camouflaged Object Segmentation dat de Segment Anything Model (SAM) stuurt met VLM-features voor nauwkeurigere segmentatie en een zachte ruimtelijke prior gebruikt om het domeinverschil bij classificatie te overbruggen, waardoor zowel de lokalisatie als de classificatie van gecamoufleerde objecten aanzienlijk verbetert.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Dit paper introduceert π3π^3, een voeding-neuraal netwerk dat gebruikmaakt van een volledig permutatie-equivariante architectuur om visuele geometrie te reconstrueren zonder afhankelijkheid van een vaste referentiebeeld, wat leidt tot robuustere en state-of-the-art prestaties bij taken zoals camerapositieschatting en diepteanalyse.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs