cs.CV papers | Gist.Science

An Extended Topological Model For High-Contrast Optical Flow

Dit artikel introduceert een uitgebreid topologisch model dat een 3-variëteit en disjuncte cirkels identificeert om de structuur van hoog-contrast optische stroom te verklaren, waarbij wordt aangetoond dat de meest contrastrijke patronen zich nabij bewegingsgrenzen bevinden in plaats van op het eerder voorgestelde torusmodel.

Brad Turow, Jose A. Perea2026-03-10🔢 math

ColonSplat: Reconstruction of Peristaltic Motion in Colonoscopy with Dynamic Gaussian Splatting

Dit paper introduceert ColonSplat, een dynamisch Gaussian Splatting-framework dat de peristaltische beweging tijdens colonoscopie nauwkeuriger reconstrueert dan bestaande methoden, ondersteund door een nieuw synthetisch dataset genaamd DynamicColon.

Weronika Smolak-Dy\.zewska, Joanna Kaleta, Diego Dall'Alba, Przemysław Spurek2026-03-10💻 cs

IGLU: The Integrated Gaussian Linear Unit Activation Function

Dit paper introduceert IGLU, een nieuwe parametrische activeringsfunctie die voortkomt uit een schaalmengsel van GELU-poorten met een Cauchy-gebaseerde poort, en die door zijn zware staart en efficiënte benadering (IGLU-Approx) superieure of vergelijkbare prestaties levert ten opzichte van bestaande functies zoals ReLU en GELU, met name op onbalans datasets.

Mingi Kang, Zai Yang, Jeova Farias Sales Rocha Neto2026-03-10🤖 cs.LG

A prior information informed learning architecture for flying trajectory prediction

Deze paper introduceert een hardware-efficiënt raamwerk dat een Dual-Transformer-Cascaded-architectuur combineert met omgevingspriors om de landingspunten van vliegende objecten, zoals tennisballen, nauwkeuriger te voorspellen dan bestaande methoden.

Xianda Huang, Zidong Han, Ruibo Jin, Zhenyu Wang, Wenyu Li, Xiaoyang Li, Yi Gong2026-03-10💻 cs

PICS: Pairwise Image Compositing with Spatial Interactions

Het paper introduceert PICS, een zelftoezicht-gebaseerde methode die gebruikmaakt van een Interaction Transformer met maskergestuurde Mixture-of-Experts en adaptieve α-blending om coherentie en fysieke consistentie te behouden bij het parallelle compositen van objecten in afbeeldingen.

Hang Zhou, Xinxin Zuo, Sen Wang, Li Cheng2026-03-10💻 cs

OPTED: Open Preprocessed Trachoma Eye Dataset Using Zero-Shot SAM 3 Segmentation

Dit paper introduceert OPTED, een open-source, voorverwerkte dataset voor trachoomclassificatie die is gegenereerd met behulp van een reproduceerbare zero-shot SAM 3-pijplijn om de schaarsheid aan data uit de zwaarst getroffen regio's aan te pakken.

Kibrom Gebremedhin, Hadush Hailu, Bruk Gebregziabher2026-03-10💻 cs

Learning From Design Procedure To Generate CAD Programs for Data Augmentation

Dit paper introduceert een nieuwe data-augmentatiemethode die Large Language Models stimuleert om CAD-programma's te genereren op basis van referentieoppervlakken en modelleringprocedures, waardoor de geometrische diversiteit en de overeenkomst met industriële ontwerpen aanzienlijk worden verbeterd.

Yan-Ying Chen, Dule Shu, Matthew Hong, Andrew Taber, Jonathan Li, Matthew Klenk2026-03-10🤖 cs.LG

PaQ-DETR: Learning Pattern and Quality-Aware Dynamic Queries for Object Detection

Het paper introduceert PaQ-DETR, een nieuw objectdetectie-framework dat de beperkingen van vaste queries oplost door dynamische, beeldspecifieke queries te genereren op basis van gedeelde patronen en een kwaliteitsbewuste toewijzingstrategie, wat leidt tot significante prestatieverbeteringen op diverse benchmarks.

Zhengjian Kang, Jun Zhuang, Kangtong Mo, Qi Chen, Rui Liu, Ye Zhang2026-03-10💻 cs

DLRMamba: Distilling Low-Rank Mamba for Edge Multispectral Fusion Object Detection

Het paper introduceert DLRMamba, een efficiënte methode voor objectdetectie in multispectrale beelden op randapparatuur die parameterredundantie in Mamba-modellen oplost door middel van een laag-rang 2D selectieve scan en structurele distillatie, waardoor een superieur evenwicht tussen rekenefficiëntie en detectienauwkeurigheid wordt bereikt.

Qianqian Zhang, Leon Tabaro, Ahmed M. Abdelmoniem, Junshe An2026-03-10💻 cs

Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images

Dit artikel presenteert ESM-YOLO+, een lichtgewicht netwerk voor de detectie van kleine objecten in zichtbare en infrarood afbeeldingen dat gebruikmaakt van een masker-gebaseerde fusiemodule en structurele versterking tijdens training om de nauwkeurigheid te maximaliseren terwijl de modelcomplexiteit aanzienlijk wordt verlaagd.

Qianqian Zhang, Xiaolong Jia, Ahmed M. Abdelmoniem, Li Zhou, Junshe An2026-03-10💻 cs

HIERAMP: Coarse-to-Fine Autoregressive Amplification for Generative Dataset Distillation

Dit paper introduceert HIERAMP, een methode die de hiërarchische semantiek van objecten benut door middel van een grof-naar-fijn autoregressieve versterking via VAR-modellen om effectievere generatieve datasetdistillatie te bereiken.

Lin Zhao, Xinru Jiang, Xi Xiao, Qihui Fan, Lei Lu, Yanzhi Wang, Xue Lin, Octavia Camps, Pu Zhao, Jianyang Gu2026-03-10💻 cs

Extracting and analyzing 3D histomorphometric features related to perineural and lymphovascular invasion in prostate cancer

Deze studie presenteert een analytische pijplijn die 3D-histomorfometrische kenmerken van perineurale en lymfovaskulaire invasie in prostaatkanker extrahert uit optisch opgehelderde weefselmonsters, en toont aan dat deze 3D-kenmerken een betere voorspelling van biochemische recidieven bieden dan traditionele 2D-metingen.

Sarah S. L. Chow, Rui Wang, Robert B. Serafin, Yujie Zhao, Elena Baraznenok, Xavier Farré, Jennifer Salguero-Lopez, Gan Gao, Huai-Ching Hsieh, Lawrence D. True, Priti Lal, Anant Madabhushi, Jonathan T. C. Liu2026-03-10💻 cs

Virtual Intraoperative CT (viCT): Sequential Anatomic Updates for Modeling Tissue Resection Throughout Endoscopic Sinus Surgery

Dit artikel introduceert viCT, een methode die monocular endoscopische video gebruikt om een virtuele intraoperatieve CT te genereren die de anatomie tijdens endoscopische sinusoperaties dynamisch bijwerkt, waardoor de beperkingen van statische preoperatieve beelden worden overwonnen met submillimeter nauwkeurigheid.

Nicole M. Gunderson, Graham J. Harris, Jeremy S. Ruthberg, Pengcheng Chen, Di Mao, Randall A. Bly, Waleed M. Abuzeid, Eric J. Seibel2026-03-10💻 cs

SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

Dit paper introduceert SurgCUT3R, een raamwerk dat monocular endoscopische video's omzet in robuuste 3D-scheurherstellingen door een data-generatiepijplijn, hybride supervisie en een hiërarchische inferentie aan te bieden om de beperkingen van bestaande modellen op het gebied van gebrek aan trainingsdata en pose-drift te overwinnen.

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

Conditional Unbalanced Optimal Transport Maps: An Outlier-Robust Framework for Conditional Generative Modeling

Dit paper introduceert Conditional Unbalanced Optimal Transport (CUOT), een robuust raamwerk voor conditionele generatieve modellering dat de gevoeligheid voor uitbijters in klassieke methoden oplost door de distributievastleggingsbeperkingen te versoepelen via Csiszár-divergentiestraffen, wat resulteert in een efficiënt en nauwkeurig model voor het genereren van data.

Jiwoo Yoon, Kyumin Choi, Jaewoong Choi2026-03-10🤖 cs.LG

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

Dit paper introduceert T2SGrid, een nieuw raamwerk dat video-temporele grondvesting verbetert door tijdssequenties om te vormen naar gestructureerde 2D-gridbeelden, waardoor complexe temporele dynamiek effectiever kan worden begrepen dan met bestaande methoden.

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

Dit artikel presenteert een methode voor beeldgebaseerde vormretrieval die gebruikmaakt van vooraf uitgelijnde multi-modale encoders en een hard contrastief verlies om state-of-the-art prestaties te bereiken zonder dat view-synthese of hertraining op de doel-database nodig is.

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

Dit paper introduceert een perceptiebewust multimodaal redeneringsframework dat Vision-Language Models versterkt met object-gerichte grounding via visuele referentietokens en een Multimodal Chain-of-Thought-dataset, waardoor aanzienlijke verbeteringen worden behaald in ruimtelijk redeneren uit monoculaire beelden voor autonoom rijden.

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

Dit paper introduceert ADAS-TO, het eerste grote, openbare multimodale dataset dat zich richt op natuurlijke overnames van ADAS naar handmatige besturing, en biedt empirische inzichten in de dynamiek van kritieke situaties die aantonen dat visuele waarschuwingen vaak eerder mogelijk zijn dan kinematische triggers.

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

MipSLAM: Alias-Free Gaussian Splatting SLAM

Dit paper introduceert MipSLAM, een frequentiebewust 3D-Gaussian-Splatting-SLAM-kader dat aliasing-artefacten en trajectdrift effectief aanpakt door een elliptisch adaptief anti-aliasing-algoritme en spectrale pose-grafoptimalisatie, wat resulteert in state-of-the-art weergavekwaliteit en lokaliseringsnauwkeurigheid.

Yingzhao Li, Yan Li, Shixiong Tian, Yanjie Liu, Lijun Zhao, Gim Hee Lee2026-03-10💻 cs

← Vorige Volgende →