cs.CV papers | Gist.Science

On the Generalization Capacities of MLLMs for Spatial Intelligence

Dit paper stelt dat MLLMs die alleen RGB-gegevens verwerken fundamenteel tekortschieten in ruimtelijk inzicht door camera-parameters te negeren, en introduceert daarom een camera-bewust raamwerk dat door het integreren van camera-intrinsieke parameters en data-augmentatie zorgt voor robuustere en generaliseerbare ruimtelijke redeneerfähigheden.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Dit artikel toont aan dat het toepassen van conformalized quantile regression op deep learning-modellen voor het voorspellen van zonnevlammen uit magnetische veldkaarten leidt tot betrouwbaardere voorspellingen met nauwkeurigere betrouwbaarheidsintervallen dan andere methoden.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Deze paper introduceert UWPD, een nieuw paradigma voor het detecteren van onzichtbare watermerken zonder voorafgaande kennis van het inbeddingsalgoritme, door middel van het UniFreq-100K-dataset en het FSNet-model dat gebruikmaakt van frequentiegebaseerde modules voor superieure zero-shot detectie.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Dit paper introduceert HERO, een nieuw kader voor open-vocabulaire tijdsgebonden zinsgrondering in video's, en presenteert de eerste benchmarks en methoden om modellen beter te laten generaliseren naar onbekende taaluitdrukkingen.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Deze studie introduceert een interpreteerbaar diep leermodel voor de detectie van AMD op basis van OCTA-beelden, dat specifieke vaatbiomarkers zoals tortuositeit en perfusiedeficiëntie integreert om de diagnose te verbeteren en in lijn te brengen met de pathofysiologie van de ziekte.

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Deze paper introduceert een efficiënt raamwerk voor heterogene decentrale diffusiemodellen dat de trainingskosten aanzienlijk verlaagt en diverse trainingsdoelen (DDPM en Flow Matching) mogelijk maakt, wat resulteert in een 16-voudige reductie in rekenkracht en een 14-voudige reductie in data ten opzichte van eerdere methoden.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

ButterflyViT is een nieuwe methode die Vision Transformers voor randapparatuur mogelijk maakt door experts te behandelen als geometrische herschikkingen van een gedeelde quantized substraat, wat resulteert in een 354-voudige vermindering van het geheugengebruik bij 64 experts met verwaarloosbaar verlies aan nauwkeurigheid.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Deze paper introduceert XMACNet, een lichtgewicht en verklaarbaar CNN-model dat zichtbare beelden en vegetatie-indexen combineert via zelf-attention en multi-modale fusie om chili-ziekten nauwkeurig te detecteren en te visualiseren voor toepassing in de precisielandbouw.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

Dit paper introduceert EarthBridge, een hoogwaardig framework voor cross-modale beeldvertaling tussen EO-, IR- en SAR-sensoren dat gebruikmaakt van Diffusion Bridge Implicit Models en Contrastive Unpaired Translation om de tweede plaats te behalen in de 4th Multi-modal Aerial View Image Challenge.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

Het artikel introduceert HiDE, een hiërarchisch model voor geleerde afbeeldingscompressie dat externe priors via een gestructureerde tweelaagse woordenboekretrieval en een contextbewuste schatter efficiënter benut dan bestaande methoden, wat leidt tot aanzienlijke bitrate-reducties.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Dit artikel presenteert een hybride machine learning-model dat MRI-beelden verwerkt via een combinatie van CNN-architecturen (VGG19, EfficientNet en ResNet50) en een Bi-LSTM-classificatie, waardoor een nauwkeurigheid van 98,83% wordt bereikt voor de vroege detectie van cerebrale parese bij pasgeborenen.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Dit artikel onthult dat modellen die hun redenering consistent houden met visuele input tijdens lange taken (gemeten via Step Grounding Rate) beter generaliseren naar onbekende situaties dan modellen die alleen op de eindnauwkeurigheid worden beoordeeld.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Dit paper introduceert MotionBits, een semantiek-onafhankelijk concept voor het segmenteren van bewegende stijve lichamen op basis van kinematische twist-equivalentie, en presenteert het MoRiBo-benchmark en een leervrije grafische methode die de staat-der-techniek overtreft voor robuuste fysieke interactie-analyse in robotica.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Dit artikel introduceert Perturbed Gaussian Ensemble, een actief beeldselectieframework dat onzekerheidsmodellering en sequentiële besluitvorming combineert om de kwaliteit van reconstructies bij schaarse CT-beelden te verbeteren door de meest informatieve X-ray-weergaven te selecteren.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

An Extended Topological Model For High-Contrast Optical Flow

Dit artikel introduceert een uitgebreid topologisch model dat een 3-variëteit en disjuncte cirkels identificeert om de structuur van hoog-contrast optische stroom te verklaren, waarbij wordt aangetoond dat de meest contrastrijke patronen zich nabij bewegingsgrenzen bevinden in plaats van op het eerder voorgestelde torusmodel.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Dit paper introduceert ColonSplat, een dynamisch Gaussian Splatting-framework dat de peristaltische beweging tijdens colonoscopie nauwkeuriger reconstrueert dan bestaande methoden, ondersteund door een nieuw synthetisch dataset genaamd DynamicColon.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

Dit paper introduceert IGLU, een nieuwe parametrische activeringsfunctie die voortkomt uit een schaalmengsel van GELU-poorten met een Cauchy-gebaseerde poort, en die door zijn zware staart en efficiënte benadering (IGLU-Approx) superieure of vergelijkbare prestaties levert ten opzichte van bestaande functies zoals ReLU en GELU, met name op onbalans datasets.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

Deze paper introduceert een hardware-efficiënt raamwerk dat een Dual-Transformer-Cascaded-architectuur combineert met omgevingspriors om de landingspunten van vliegende objecten, zoals tennisballen, nauwkeuriger te voorspellen dan bestaande methoden.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

Het paper introduceert PICS, een zelftoezicht-gebaseerde methode die gebruikmaakt van een Interaction Transformer met maskergestuurde Mixture-of-Experts en adaptieve α-blending om coherentie en fysieke consistentie te behouden bij het parallelle compositen van objecten in afbeeldingen.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

Dit paper introduceert OPTED, een open-source, voorverwerkte dataset voor trachoomclassificatie die is gegenereerd met behulp van een reproduceerbare zero-shot SAM 3-pijplijn om de schaarsheid aan data uit de zwaarst getroffen regio's aan te pakken.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

← Vorige Volgende →

cs.CV