cs.CV papers | Gist.Science

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Deze studie toont aan dat asymmetrische kennisdistillatie van een grote Vision Transformer naar kleine CNN's leidt tot een ernstige dimensionale ineenstorting die de robuustheid tegen ruis fundamenteel ondermijnt, waarbij alleen extreme capaciteitsbeperkingen als robuust laagdoorlaatfilter fungeren.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

Dit paper introduceert gRef-CW, het eerste dataset voor generaliseerde visuele grounding in de landbouw, en Weed-VG, een modulair framework dat de bestaande kloof tussen taal en visuele objecten in veldbeelden overbrugt door multi-label hiërarchische scoring en interpolatie-gedreven regressie.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Dit artikel introduceert SIQA, een nieuw raamwerk voor het beoordelen van de kwaliteit van wetenschappelijke afbeeldingen dat zowel perceptieve als wetenschappelijke dimensies omvat, en onthult dat multimodale modellen weliswaar consistent kunnen scoren, maar vaak tekortschieten in werkelijk wetenschappelijk begrip.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Dit paper stelt dat MLLMs die alleen RGB-gegevens verwerken fundamenteel tekortschieten in ruimtelijk inzicht door camera-parameters te negeren, en introduceert daarom een camera-bewust raamwerk dat door het integreren van camera-intrinsieke parameters en data-augmentatie zorgt voor robuustere en generaliseerbare ruimtelijke redeneerfähigheden.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

Uncertainty-Aware Solar Flare Regression

Dit artikel toont aan dat het toepassen van conformalized quantile regression op deep learning-modellen voor het voorspellen van zonnevlammen uit magnetische veldkaarten leidt tot betrouwbaardere voorspellingen met nauwkeurigere betrouwbaarheidsintervallen dan andere methoden.

Jinsu Hong, Chetraj Pandey, Berkay Aydin2026-03-10🔭 astro-ph

UWPD: A General Paradigm for Invisible Watermark Detection Agnostic to Embedding Algorithms

Deze paper introduceert UWPD, een nieuw paradigma voor het detecteren van onzichtbare watermerken zonder voorafgaande kennis van het inbeddingsalgoritme, door middel van het UniFreq-100K-dataset en het FSNet-model dat gebruikmaakt van frequentiegebaseerde modules voor superieure zero-shot detectie.

Xiang Ao, Yiling Du, Zidan Wang, Mengru Chen2026-03-10💻 cs

HERO: Hierarchical Embedding-Refinement for Open-Vocabulary Temporal Sentence Grounding in Videos

Dit paper introduceert HERO, een nieuw kader voor open-vocabulaire tijdsgebonden zinsgrondering in video's, en presenteert de eerste benchmarks en methoden om modellen beter te laten generaliseren naar onbekende taaluitdrukkingen.

Tingting Han, Xinsong Tao, Yufei Yin, Min Tan, Sicheng Zhao, Zhou Yu2026-03-10💻 cs

Vessel-Aware Deep Learning for OCTA-Based Detection of AMD

Deze studie introduceert een interpreteerbaar diep leermodel voor de detectie van AMD op basis van OCTA-beelden, dat specifieke vaatbiomarkers zoals tortuositeit en perfusiedeficiëntie integreert om de diagnose te verbeteren en in lijn te brengen met de pathofysiologie van de ziekte.

Margalit G. Mitzner, Moinak Bhattacharya, Zhilin Zou, Chao Chen, Prateek Prasanna2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Deze paper introduceert een efficiënt raamwerk voor heterogene decentrale diffusiemodellen dat de trainingskosten aanzienlijk verlaagt en diverse trainingsdoelen (DDPM en Flow Matching) mogelijk maakt, wat resulteert in een 16-voudige reductie in rekenkracht en een 14-voudige reductie in data ten opzichte van eerdere methoden.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

ButterflyViT is een nieuwe methode die Vision Transformers voor randapparatuur mogelijk maakt door experts te behandelen als geometrische herschikkingen van een gedeelde quantized substraat, wat resulteert in een 354-voudige vermindering van het geheugengebruik bij 64 experts met verwaarloosbaar verlies aan nauwkeurigheid.

Aryan Karmore2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Deze paper introduceert XMACNet, een lichtgewicht en verklaarbaar CNN-model dat zichtbare beelden en vegetatie-indexen combineert via zelf-attention en multi-modale fusie om chili-ziekten nauwkeurig te detecteren en te visualiseren voor toepassing in de precisielandbouw.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

EarthBridge: A Solution for 4th Multi-modal Aerial View Image Challenge Translation Track

Dit paper introduceert EarthBridge, een hoogwaardig framework voor cross-modale beeldvertaling tussen EO-, IR- en SAR-sensoren dat gebruikmaakt van Diffusion Bridge Implicit Models en Contrastive Unpaired Translation om de tweede plaats te behalen in de 4th Multi-modal Aerial View Image Challenge.

Zhenyuan Chen, Guanyuan Shen, Feng Zhang2026-03-10💻 cs

HiDE: Hierarchical Dictionary-Based Entropy Modeling for Learned Image Compression

Het artikel introduceert HiDE, een hiërarchisch model voor geleerde afbeeldingscompressie dat externe priors via een gestructureerde tweelaagse woordenboekretrieval en een contextbewuste schatter efficiënter benut dan bestaande methoden, wat leidt tot aanzienlijke bitrate-reducties.

Haoxuan Xiong, Yuanyuan Xu, Kun Zhu, Yiming Wang, Baoliu Ye2026-03-10💻 cs

A Hybrid Machine Learning Model for Cerebral Palsy Detection

Dit artikel presenteert een hybride machine learning-model dat MRI-beelden verwerkt via een combinatie van CNN-architecturen (VGG19, EfficientNet en ResNet50) en een Bi-LSTM-classificatie, waardoor een nauwkeurigheid van 98,83% wordt bereikt voor de vroege detectie van cerebrale parese bij pasgeborenen.

Karan Kumar Singh, Nikita Gajbhiye, Gouri Sankar Mishra2026-03-10💻 cs

Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models

Dit artikel onthult dat modellen die hun redenering consistent houden met visuele input tijdens lange taken (gemeten via Step Grounding Rate) beter generaliseren naar onbekende situaties dan modellen die alleen op de eindnauwkeurigheid worden beoordeeld.

Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin2026-03-10💻 cs

MotionBits: Video Segmentation through Motion-Level Analysis of Rigid Bodies

Dit paper introduceert MotionBits, een semantiek-onafhankelijk concept voor het segmenteren van bewegende stijve lichamen op basis van kinematische twist-equivalentie, en presenteert het MoRiBo-benchmark en een leervrije grafische methode die de staat-der-techniek overtreft voor robuuste fysieke interactie-analyse in robotica.

Howard H. Qian, Kejia Ren, Yu Xiang, Vicente Ordonez, Kaiyu Hang2026-03-10💻 cs

Active View Selection with Perturbed Gaussian Ensemble for Tomographic Reconstruction

Dit artikel introduceert Perturbed Gaussian Ensemble, een actief beeldselectieframework dat onzekerheidsmodellering en sequentiële besluitvorming combineert om de kwaliteit van reconstructies bij schaarse CT-beelden te verbeteren door de meest informatieve X-ray-weergaven te selecteren.

Yulun Wu, Ruyi Zha, Wei Cao, Yingying Li, Yuanhao Cai, Yaoyao Liu2026-03-10💻 cs

An Extended Topological Model For High-Contrast Optical Flow

Dit artikel introduceert een uitgebreid topologisch model dat een 3-variëteit en disjuncte cirkels identificeert om de structuur van hoog-contrast optische stroom te verklaren, waarbij wordt aangetoond dat de meest contrastrijke patronen zich nabij bewegingsgrenzen bevinden in plaats van op het eerder voorgestelde torusmodel.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Dit paper introduceert ColonSplat, een dynamisch Gaussian Splatting-framework dat de peristaltische beweging tijdens colonoscopie nauwkeuriger reconstrueert dan bestaande methoden, ondersteund door een nieuw synthetisch dataset genaamd DynamicColon.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

Dit paper introduceert IGLU, een nieuwe parametrische activeringsfunctie die voortkomt uit een schaalmengsel van GELU-poorten met een Cauchy-gebaseerde poort, en die door zijn zware staart en efficiënte benadering (IGLU-Approx) superieure of vergelijkbare prestaties levert ten opzichte van bestaande functies zoals ReLU en GELU, met name op onbalans datasets.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

← Vorige Volgende →

cs.CV