cs.CV papers | Gist.Science

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Dit paper introduceert 3ViewSense, een raamwerk dat het ruimtelijke intelligentie-gat in Vision-Language Models dicht door ruimtelijk redeneren te grondvesten in orthografische weergaven via een 'Simuleer-en-Redeneer'-mechanisme, wat leidt tot aanzienlijk betere prestaties in complexe ruimtelijke taken zoals het tellen van blokken en het hanteren van verduistering.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

Het paper introduceert AR2-4FV, een systeem dat gebruikmaakt van een stabiele achtergrondankerbank voor langdurige taalgebaseerde objectvolging in video's met een vast camerastandpunt, waardoor het object kan worden herkend en geïdentificeerd zelfs na lange perioden van afwezigheid of verduistering.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

Het artikel introduceert DECADE, een onbewaakte diffusiemodel dat tijdsconsistentie toepast om ruis in dynamische Rb-82 hart-PET-beelden te verminderen en zo de beeldkwaliteit en kwantitatieve nauwkeurigheid verbetert zonder gebruik te maken van gepaarde trainingsdata.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Het paper introduceert MedQ-Deg, een uitgebreid benchmark voor het evalueren van multimodale grote taalmodellen in medische beeldvorming onder diverse kwaliteitsdegradaties, waarbij wordt aangetoond dat prestaties systematisch achteruitgaan en modellen vaak onterecht hoog vertrouwen behouden ondanks een daling in nauwkeurigheid.

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

Deze paper introduceert het GK-FedDKD-framework, een federatief leermodel dat geometrische kennis en dubbele kennisdistillatie combineert om de uitdagingen van data-heterogeniteit bij het analyseren van satellietbeelden effectief aan te pakken en aanzienlijk betere prestaties te leveren dan bestaande methoden.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

Parameterized Brushstroke Style Transfer

Dit paper introduceert een geparametriseerde stijltransfermethode die afbeeldingen in het penseelstreek-domein in plaats van het pixeldomein representeert, wat resulteert in een natuurgetrouwere weergave van kunst dan bestaande pixelgebaseerde technieken.

Uma Meleti, Siyu Huang2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Dit paper introduceert OrdinalBench, een diagnostisch benchmarkdataset van 39.000 vraag-antwoordparen die de generalisatiegrenzen van Vision-Language Models in het begrijpen van ordinaal getallen, zoals het traceren van relatieve posities tot extreme indices, evalueert via gestructureerde redeneertaken.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

Deze paper introduceert SGI, een compact en efficiënt framework dat door middel van een zaad-gebaseerde structuur en multi-schaal fitting 2D Gaussians comprimeert en sneller convergeert voor de representatie van hoge-resolutie afbeeldingen zonder kwaliteitsverlies.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

Dit artikel introduceert 4DRC-OCC, een robuust systeem voor semantische bezettingsvoorspelling dat 4D-radar en camera-data combineert om prestaties onder moeilijke omstandigheden te verbeteren en een volledig automatisch gelabelde dataset voor training biedt.

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

Dit paper introduceert MWM, een mobiel wereldmodel dat door middel van een tweestaps trainingsframework en een nieuwe distillatiemethode actie-geconditioneerde consistentie verbetert, wat leidt tot betere visuele kwaliteit, trajectnauwkeurigheid en planningsucces bij navigatie-taken.

Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

HybridStitch is een nieuwe methode voor tekst-naar-afbeelding-generatie die de berekening versnelt door complexe beeldgebieden te verfijnen met een groot model en eenvoudige gebieden te genereren met een kleiner model, wat resulteert in een 1,83-voudige snelheidswinst op Stable Diffusion 3.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

In dit project worden goedkope, dier-geactiveerde cameravallen en visuele foundation-modellen in een Hawaïaans wolkwoud ingezet om gedetailleerde fenologische trends en interacties tussen flora en fauna te monitoren zonder toevlucht te nemen tot toezichthoudend leren.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs

Fusion Complexity Inversion: Why Simpler Cross View Modules Outperform SSMs and Cross View Attention Transformers for Pasture Biomass Regression

Dit onderzoek toont aan dat voor de regressie van graslandbiomassa op beperkte landbouwdata, de kwaliteit van de vooraf getrainde backbone (zoals DINOv3) en eenvoudige lokale fusiemodules cruciaal zijn, terwijl complexe architecturen zoals cross-view attention en SSMs juist slechter presteren.

Mridankan Mandal2026-03-10🤖 cs.LG

Transferable Optimization Network for Cross-Domain Image Reconstruction

Deze paper introduceert een nieuw transfer learning-framework dat door middel van twee bi-niveau optimalisatiestappen een universele feature-extractor en een domeinspecifieke adapter combineert om hoogwaardige beelden te reconstrueren, zelfs bij beperkte trainingsdata zoals bij onderbemonsterde MRI-scans.

Yunmei Chen, Chi Ding, Xiaojing Ye2026-03-10🤖 cs.LG

GazeShift: Unsupervised Gaze Estimation and Dataset for VR

Dit paper introduceert VRGaze, het eerste grote dataset voor oogvolging in VR, en GazeShift, een ongesuperviseerde, real-time framework dat nauwkeurige oogvolging mogelijk maakt zonder handmatige labels en met minimale rekeneisen op VR-headsets.

Gil Shapira, Ishay Goldin, Evgeny Artyomov, Donghoon Kim, Yosi Keller, Niv Zehngut2026-03-10💻 cs

Training-free Temporal Object Tracking in Surgical Videos

Deze paper introduceert een trainingsvrije methode voor tijdelijke objecttracking in laparoscopische chirurgievideo's die vooraf getrainde tekst-naar-beelddiffusiemodellen gebruikt om kritieke anatomische structuren en instrumenten nauwkeurig te lokaliseren en te volgen zonder kostbare pixel-annotaties.

Subhadeep Koley, Abdolrahim Kadkhodamohammadi, Santiago Barbarisi, Danail Stoyanov, Imanol Luengo2026-03-10💻 cs

SoundWeaver: Semantic Warm-Starting for Text-to-Audio Diffusion Serving

SoundWeaver is een trainingsvrij en modelonafhankelijk serversysteem dat de latentie van tekst-naar-audio diffusiemodellen aanzienlijk verlaagt door het generatieproces warm te starten op basis van semantisch vergelijkbare, in cache opgeslagen audiofragmenten, zonder in te leveren op de perceptuele kwaliteit.

Ayush Barik, Sofia Stoica, Nikhil Sarda, Arnav Kethana, Abhinav Khanduja, Muchen Xu, Fan Lai2026-03-10💻 cs

Toward Unified Multimodal Representation Learning for Autonomous Driving

Dit paper introduceert het Contrastive Tensor Pre-training (CTP)-framework, dat door het vervangen van paarwijze vergelijkingen door een gezamenlijke tensorbenadering, een consistente en verenigde uitlijning van tekst, afbeeldingen en puntwolkdata realiseert voor verbeterde autonome rijprestaties.

Ximeng Tao, Dimitar Filev, Gaurav Pandey2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Dit paper introduceert VLM-SubtleBench, een nieuw meetinstrument dat VLM's evalueert op hun vermogen om subtiele verschillen in diverse domeinen zoals industrie en medische beeldvorming te onderscheiden, en blootlegt dat er nog een aanzienlijke kloof bestaat tussen model- en menselijke prestaties.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Structure and Progress Aware Diffusion for Medical Image Segmentation

Deze paper introduceert SPAD, een structuur- en voortgangsgevoelige diffusiemodel voor medische beeldsegmentatie dat via een progressieve scheduler eerst stabiele morfologische structuren leert en vervolgens pas overgaat op het verfijnen van onzeker grenzen.

Siyuan Song, Guyue Hu, Chenglong Li, Dengdi Sun, Zhe Jin, Jin Tang2026-03-10💻 cs

← Vorige Volgende →