cs.CV papers | Gist.Science

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

MTVCraft introduceert het eerste framework dat ruwe 3D-motiesequenties (4D-beweging) direct modelleert via een nieuwe tokenisatie-methode en een bewegingsbewust Video DiT, waardoor er robuustere, flexibele en schaalbare karakteranimatie mogelijk is met ongeëvenaarde zero-shot generalisatie voor willekeurige personages en objecten.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Deze paper introduceert een unificerend deep meta-learning-framework dat een convergentiebewezen optimalisatiealgoritme uitrolt naar een neurale architectuur voor versnelde MRI-reconstructie, waardoor zowel multi-spoelherstel als cross-modale synthese effectief worden aangepast aan verschillende steekproefpatronen en modale combinaties.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Dit paper introduceert EgoDex, het grootste en meest diverse dataset tot nu toe van dexterous manipulatie met 829 uur egocentrisch video en gepaarde 3D-handtracking, verzameld met Apple Vision Pro om imitatieleer voor robotica en computerzicht te bevorderen.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Dit paper introduceert Vid2World, een methode die voorgeöefende videodiffusiemodellen omvormt tot interactieve wereldmodellen door causaliteit en causale actiesturing te integreren, waardoor deze modellen schaalbaar en effectief kunnen worden ingezet voor complexe besluitvormingstaken zoals robotbesturing en navigatie.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Dit paper introduceert een revolutionair 'solver-in-the-loop'-kader dat een voorgetrainde 3D-generatieve prior koppelt aan een strikt fysische randintegraalvergelijking-oplosser om complexe 3D-interfaces in elektrische impedantietomografie nauwkeurig en data-efficiënt te reconstrueren zonder de fysische consistentie te compromitteren.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Dit paper introduceert ViTaPEs, een transformer-architectuur die door middel van een innovatieve twee-staps positie-injectie visuele en tactiele data effectief combineert voor taak-agnostische representaties, wat leidt tot state-of-the-art prestaties in herkenning, zero-shot generalisatie en robotische grijpvoorspelling.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Dit paper introduceert GLMask, een semi-zelftoezicht-leringsaanpak die met minimale handmatige annotatie een state-of-the-art instantiesegmentatiemodel voor tarwekoppen ontwikkelt en bovendien aanzienlijke prestatieverbeteringen boekt op het algemene COCO-dataset.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Deze studie introduceert een door variatie-straf geoptimaliseerd GAN-model dat H&E-geschilderde weefselafbeeldingen met hoge precisie omzet in IHC-afbeeldingen voor een kosteneffectieve en betrouwbare HER2-diagnostiek bij borstkanker.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Dit paper introduceert LINO UniPS, een nieuwe methode voor universele fotometrische stereo die licht en oppervlaktnormals effectief ontkoppelt via Light Register Tokens en Interleaved Attention, en hoogfrequente geometrische details behoudt met een wavelet-gebaseerde architectuur, ondersteund door het grote synthetische PS-Verse-dataset.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Deze paper introduceert een nieuw VLM-geleid cascadekader voor Open-Vocabulary Camouflaged Object Segmentation dat de Segment Anything Model (SAM) stuurt met VLM-features voor nauwkeurigere segmentatie en een zachte ruimtelijke prior gebruikt om het domeinverschil bij classificatie te overbruggen, waardoor zowel de lokalisatie als de classificatie van gecamoufleerde objecten aanzienlijk verbetert.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

LD-RPS is een nieuwe, datasetvrije methode voor universele beeldherstel die een vooraf getraind latent diffusion-model combineert met recurrente posterior sampling en semantische priors om diverse degradaties zonder gespecialiseerde training te verhelpen.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

Dit onderzoek toont aan dat kunstmatige visiesystemen robuuster en meer op de mens gelijkend worden door ze te trainen met een ontwikkelingsvisueel dieet dat is geïnspireerd op de menselijke visuele ontwikkeling, wat leidt tot een sterkere focus op vorm in plaats van textuur en een betere weerstand tegen verstoringen.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Dit artikel introduceert Query-based Adaptive Aggregation (QAA), een innovatieve techniek voor het gezamenlijk trainen van modellen op meerdere datasets om universele visuele plaatsherkenning te bereiken met verbeterde generalisatie en robuustheid.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Dit artikel introduceert MCULoRA, een robuust raamwerk voor emotionele herkenning met onvolledige multimodale data dat door middel van ontkoppeling en dynamische aanpassing van laag-rang adaptatie de prestaties van bestaande methoden aanzienlijk verbetert.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Deze paper introduceert Mamba Snake, een nieuw raamwerk voor geünificeerde medische beeldsegmentatie dat state space-modellering en een snake-specifiek visiemodule combineert om de complexe morfologische en topologische uitdagingen van meervoudige orgaandetectie effectiever op te lossen dan bestaande methoden.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

Dit paper introduceert $π^3$ , een voeding-neuraal netwerk dat gebruikmaakt van een volledig permutatie-equivariante architectuur om visuele geometrie te reconstrueren zonder afhankelijkheid van een vaste referentiebeeld, wat leidt tot robuustere en state-of-the-art prestaties bij taken zoals camerapositieschatting en diepteanalyse.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Dit artikel introduceert InsightX Agent, een innovatief LMM-gebaseerd agentisch raamwerk dat de Sparse Deformable Multi-Scale Detector en het Evidence-Grounded Reflection-tool combineert om betrouwbare, interpreteerbare en interactieve X-ray NDT-analyses te leveren met een hoge detectienauwkeurigheid op de GDXray+-dataset.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Dit paper introduceert een op Vision Transformers gebaseerd framework dat, door gebruik te maken van Sentinel-2 en Formosat-5-beelden en een zwak-toezichtstrategie met PCA en een betrouwbaarheidsindex, de segmentatie van door rampen getroffen gebieden verbetert om de EVAP-producten van het Taiwan Space Agency te ondersteunen.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

Dit paper introduceert MIDAR, een surrogaat LiDAR-detectiemodel dat realistische waarnemingen genereert voor microscopische verkeerssimulatoren door gebruik te maken van hoogwaardige kenmerken en geometrische grafieken, waardoor schaalbare en nauwkeurige evaluaties van intelligente vervoerssystemen mogelijk worden gemaakt.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Dit artikel introduceert TransUNet-GradCAM, een hybride Transformer-U-Net-model dat door het combineren van globale en lokale kenmerken een robuuste en verklaarbare segmentatie van diabetische voetzweren mogelijk maakt, wat wordt onderbouwd door sterke prestaties op zowel interne als externe datasets.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

← Vorige Volgende →

cs.CV