cs.CV papers | Gist.Science

Unified Medical Image Segmentation with State Space Modeling Snake

Deze paper introduceert Mamba Snake, een nieuw raamwerk voor geünificeerde medische beeldsegmentatie dat state space-modellering en een snake-specifiek visiemodule combineert om de complexe morfologische en topologische uitdagingen van meervoudige orgaandetectie effectiever op te lossen dan bestaande methoden.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

Dit paper introduceert $π^3$ , een voeding-neuraal netwerk dat gebruikmaakt van een volledig permutatie-equivariante architectuur om visuele geometrie te reconstrueren zonder afhankelijkheid van een vaste referentiebeeld, wat leidt tot robuustere en state-of-the-art prestaties bij taken zoals camerapositieschatting en diepteanalyse.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Dit artikel introduceert InsightX Agent, een innovatief LMM-gebaseerd agentisch raamwerk dat de Sparse Deformable Multi-Scale Detector en het Evidence-Grounded Reflection-tool combineert om betrouwbare, interpreteerbare en interactieve X-ray NDT-analyses te leveren met een hoge detectienauwkeurigheid op de GDXray+-dataset.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Dit paper introduceert een op Vision Transformers gebaseerd framework dat, door gebruik te maken van Sentinel-2 en Formosat-5-beelden en een zwak-toezichtstrategie met PCA en een betrouwbaarheidsindex, de segmentatie van door rampen getroffen gebieden verbetert om de EVAP-producten van het Taiwan Space Agency te ondersteunen.

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

Dit paper introduceert MIDAR, een surrogaat LiDAR-detectiemodel dat realistische waarnemingen genereert voor microscopische verkeerssimulatoren door gebruik te maken van hoogwaardige kenmerken en geometrische grafieken, waardoor schaalbare en nauwkeurige evaluaties van intelligente vervoerssystemen mogelijk worden gemaakt.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Dit artikel introduceert TransUNet-GradCAM, een hybride Transformer-U-Net-model dat door het combineren van globale en lokale kenmerken een robuuste en verklaarbare segmentatie van diabetische voetzweren mogelijk maakt, wat wordt onderbouwd door sterke prestaties op zowel interne als externe datasets.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

Dit paper introduceert S $^2$ Q-VDiT, een post-training kwantisatiekader voor video-diffusietransformators dat gebruikmaakt van hessiaan-gevoelige saliente dataselectie en op aandacht gebaseerde distillatie van schaarse tokens om verliesvrije prestaties te bereiken met aanzienlijke compressie en versnelling.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Dit paper introduceert SPEX, het eerste multimodale vision-language model dat specrale informatie uit remote sensing-beelden effectief benut voor instructiegedreven landbedekkingsextractie en -uitleg, ondersteund door een nieuw dataset genaamd SPIE.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Dit artikel presenteert de eerste evaluatie van 3D Gaussian Splatting op echte fisheye-beelden met een gezichtsveld boven de 180°, waarbij wordt aangetoond dat 160° de optimale balans biedt en dat een nieuwe, op diepte gebaseerde initialisatie met UniK3D de beperkingen van Structure-from-Motion bij extreme hoeken effectief overwint.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Deze paper introduceert een unificerend, semantisch onderbouwd raamwerk voor medische beeldsegmentatie dat, door het leren van een domein-agnostische probabilistische variëteit van anatomische regelmatigheden, zowel bron-gebaseerde als bron-vrije domeinadaptatie mogelijk maakt zonder expliciete kruis-domeinafstemming en zo state-of-the-art resultaten bereikt.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Deze paper introduceert IAG, de eerste multi-doel backdoor-aanval op vision-language modellen voor visuele grounding, die dynamische, tekstgestuurde triggers gebruikt om onopgemerkt objecten te manipuleren zonder de prestaties op schone data te beïnvloeden.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Het paper introduceert Video-EM, een trainingsvrij, gebeurtenisgericht raamwerk dat lange video's omzet in een compacte, tijdsgebonden episodische geheugenreeks door middel van een zelfreflecterende LLM-agent, waardoor bestaande Video-LLMs effectiever langdurige videovragen kunnen beantwoorden zonder extra training.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Dit paper introduceert UniUGG, het eerste geïntegreerde raamwerk dat een LLM en een latente diffusiemodel combineert om zowel 3D-generatie als ruimtelijk visueel vraag-antwoord (VQA) mogelijk te maken door middel van een geometrisch-semantische leerstrategie.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Dit paper introduceert een efficiënt diffusion-gebaseerd raamwerk voor 3D-houdingsbepaling dat gebruikmaakt van een hiërarchische tijdelijke pruning-strategie om de rekentijd aanzienlijk te verminderen en de inferentiesnelheid te verhogen, terwijl het tegelijkertijd state-of-the-art prestaties behaalt.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

PointSlice introduceert een nieuwe slice-gebaseerde representatie en een Slice Interaction Network om 3D-objectdetectie uit puntwolken te versnellen en de parameter-efficiëntie te verbeteren, terwijl de nauwkeurigheid op grote datasets zoals Waymo, nuScenes en Argoverse 2 behouden blijft.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Dit paper introduceert MDM-MixMFL, een nieuw federatief leerframework voor MRI-segmentatie dat modale ontkoppeling en een memorisatiemechanisme gebruikt om de uitdagingen van heterogene en onvolledige multimodale data in gedistribueerde medische scenario's aan te pakken.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Deze studie introduceert een visiegebaseerd systeem dat met behulp van computer vision en objectdetectie het rijgedrag van niet-verbonden voertuigen analyseert om afleiding en vermoeidheid te detecteren en zo bijdraagt aan het verminderen van verkeersongevallen.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Deze paper introduceert UltraUPConvNet, een computerefficiënt multi-task framework dat gebaseerd is op UPerNet en ConvNeXt en tegelijkertijd weefselsegmentatie en ziektevoorspelling in ultrasone beelden uitvoert met state-of-the-art prestaties.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Traffic-MLLM is een nieuw raamwerk voor verkeersredenering dat in plaats van expliciete casusretrieval een gestructureerde casusruimte leert door middel van curieuze, op RND gebaseerde regularisatie, wat leidt tot verbeterde prestaties in dynamische en zeldzame verkeerssituaties.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Dit artikel introduceert SAGA, een nieuwe methode voor lineaire attention die door middel van selectieve adaptieve gating de prestaties en efficiëntie van Transformer-modellen bij hoge resoluties verbetert door de beperkingen van uniforme compressie te overwinnen.

Yuan Cao, Dong Wang2026-03-10💻 cs

← Vorige Volgende →

cs.CV