cs.CV papers | Gist.Science

Fast-BEV++: Fast by Algorithm, Deployable by Design

Fast-BEV++ is een nieuw visueel Bird's-Eye-View-perceptieframework dat door middel van een hardware-geoptimaliseerde architectuur de traditionele afweging tussen detectienauwkeurigheid en verwerkingssnelheid oplost, waardoor het een nieuwe state-of-the-art prestatie op de nuScenes-benchmark bereikt met real-time inferentie van meer dan 134 FPS.

Yuanpeng Chen, Hui Song, Sheng Yang, Wei Tao, Shanhui Mo, Shuang Zhang, Xiao Hua, Tiankun Zhao2026-03-09💻 cs

Uncertainty-Aware Subset Selection for Robust Visual Explainability under Distribution Shifts

Dit artikel introduceert een nieuw raamwerk dat submodulaire subsetselectie combineert met onzekerheidsschatting om de robuustheid en betrouwbaarheid van visuele uitlegbare methoden te verbeteren onder distributieveranderingen zonder extra training.

Madhav Gupta, Vishak Prasad C, Ganesh Ramakrishnan2026-03-09🤖 cs.LG

Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement

Dit paper introduceert Photo3D, een framework dat de fotorealistische 3D-generatie verbetert door een structuur-gealigneerde meerzichtsynthese te gebruiken om een gedetailleerde dataset te creëren die de beperkingen van bestaande 3D-generatoren in het realisme van texturen oplost.

Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang2026-03-09💻 cs

Modular Neural Image Signal Processing

Dit artikel introduceert een modulair, volledig op leren gebaseerd framework voor neurale beeldsignaalverwerking dat ruwe invoer omzet in hoogwaardige afbeeldingen met volledige controle over tussenstappen, waardoor schaalbaarheid, generalisatie en interactieve nabewerking worden verbeterd.

Mahmoud Afifi, Zhongling Wang, Ran Zhang, Michael S. Brown2026-03-09💻 cs

A Novel Patch-Based TDA Approach for Computed Tomography Imaging

Dit artikel introduceert een nieuwe patch-gebaseerde topologische data-analyse-methode voor CT-beelden die, vergeleken met bestaande cubische complex-algoritmen en radiomische kenmerken, zowel de classificatieprestaties aanzienlijk verbetert als de rekentijd verlaagt.

Dashti A. Ali, Aras T. Asaad, Jacob J. Peoples, Mohammad Hamghalam, Natalie Gangai, Richard K. G. Do, Alice C. Wei, Amber L. Simpson2026-03-09🤖 cs.LG

Towards Scalable Pre-training of Visual Tokenizers for Generation

Dit paper introduceert VTP, een uniek voortrainingsframework voor visuele tokenizers dat door het gezamenlijk optimaliseren van contrastieve, zelftoezicht- en reconstructieverliezen de schaalbaarheid van generatieve modellen verbetert door een latente ruimte te creëren die hoogwaardige semantiek effectief vastlegt in plaats van alleen lage-niveau pixelinformatie.

Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang2026-03-09💻 cs

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Dit paper introduceert CASA, een efficiëntere visueel-taalmodel-architectuur die cross-attention gebruikt in plaats van token-invoeging om de rekenkosten en het geheugengebruik bij lange video- en meervoudige beeldconversaties aanzienlijk te verminderen zonder in te leveren op prestaties.

Moritz Böhle, Amélie Royer, Juliette Marrie, Edouard Grave, Patrick Pérez2026-03-09🤖 cs.AI

Pretraining Frame Preservation for Lightweight Autoregressive Video History Embedding

Deze paper introduceert een lichtgewicht encoder die lange video-archieven efficiënt comprimeert tot korte embeddingen via een vooropgeleide frame-query-objective, waardoor consistente autoregeneratieve video-generatie mogelijk wordt binnen beperkte rekenkracht.

Lvmin Zhang, Shengqu Cai, Muyang Li, Chong Zeng, Beijia Lu, Anyi Rao, Song Han, Gordon Wetzstein, Maneesh Agrawala2026-03-09💻 cs

Spatial4D-Bench: A Versatile 4D Spatial Intelligence Benchmark

In dit werk wordt Spatial4D-Bench gepresenteerd, een uitgebreid benchmark met ongeveer 40.000 vraag-antwoordparen voor 18 taken die de beperkingen van multimodale grote taalmodellen in menselijke 4D-ruimtelijke intelligentie blootlegt en de ontwikkeling van geavanceerdere modellen stimuleert.

Pan Wang, Yang Liu, Guile Wu, Eduardo R. Corral-Soto, Chengjie Huang, Binbin Xu, Dongfeng Bai, Xu Yan, Yuan Ren, Xingxin Chen, Yizhe Wu, Tao Huang, Wenjun Wan, Xin Wu, Pei Zhou, Xuyang Dai, Kangbo Lv, Hongbo Zhang, Yosef Fried, Aixue Ye, Bailan Feng, Zhenyu Chen, Zhen Li, Yingcong Chen, Yiyi Liao, Bingbing Liu2026-03-09💻 cs

Bayesian Monocular Depth Refinement via Neural Radiance Fields

Deze paper introduceert MDENeRF, een iteratief framework dat monokulaire diepteschattingen verfijnt door Bayesiaanse fusie toe te passen op een globale monokulaire prior en gedetailleerde, onzekerheidsgebaseerde dieptedata van Neural Radiance Fields.

Arun Muthukkumar2026-03-09🤖 cs.LG

FlyPose: Towards Robust Human Pose Estimation From Aerial Views

Dit paper introduceert FlyPose, een lichtgewicht en robuust systeem voor het schatten van menselijke houdingen vanuit drone-beelden dat aanzienlijke prestatieverbeteringen boekt, real-time presteert op een Jetson Orin AGX en wordt aangevuld met een nieuw, uitdagend dataset genaamd FlyPose-104.

Hassaan Farooq, Marvin Brenner, Peter Stütz2026-03-09💻 cs

Robust Sparse Signal Recovery with Outliers: A Hard Thresholding Pursuit Approach Based on LAD

Dit artikel introduceert het GFHTP₁-algoritme, een robuuste methode voor het exacte herstel van sparse signalen uit met uitbijters vervuilde metingen zonder voorafgaande kennis van de sparsiteit, die theoretisch gegarandeerd binnen $s$ iteraties convergeert en numeriek superieur presteert aan bestaande methoden.

Jiao Xu, Peng Li, Bing Zheng2026-03-09🔢 math

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem is een geheugencentrisch systeem dat op basis van casual RGB-ego-video een meetkundig 3D-structuur bouwt om langdurige taalkundige zoekopdrachten en vragen over binnenruimtes te ondersteunen zonder speciale sensoren.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

Dit paper introduceert OnlineSI, een framework dat multimodale grote taalmodellen in staat stelt om door middel van een beperkte ruimtelijke geheugenstructuur en integratie van 3D-puntwolkdata continu ruimtelijk begrip en gronding te ontwikkelen voor realtime toepassing in veranderende omgevingen.

Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

Dit paper introduceert SRA 2, een lichtgewicht framework dat de trainingssnelheid en kwaliteit van diffusion transformers verbetert door interne latent features uit te lijnen met pre-getrainde VAE-kenmerken, zonder de noodzaak van zware externe encoders of dubbele modelopzet.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

FARTrack: Fast Autoregressive Visual Tracking with High Performance

FARTrack is een snel en hoogpresterend visueel trackersysteem dat autoregressie, taakspecifieke zelfdistillatie en inter-frame autoregressieve verdunning combineert om real-time prestaties op zowel GPU als CPU te bereiken zonder in te leveren op nauwkeurigheid.

Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Het paper introduceert SpatialReward, een beloningsmodel dat de perceptiekloof in online versterkingsleer voor beeldbewerking overbrugt door expliciete ruimtelijke redenering te gebruiken voor nauwkeurigere evaluatie en verbeterde prestaties.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

Deze paper introduceert (MGS) $^2$ -Net, een innovatief raamwerk dat micro-geometrische schaal en macro-geometrische structuur unificeert via modules voor schaaladaptatie en structurele filtering om robuuste cross-view geo-localisatie te bereiken onder extreme perspectiefverschillen.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Dit paper introduceert MiDAS, een open-source, platform-onafhankelijk systeem voor tijdgesynchroniseerde, niet-invasieve multimodale dataverzameling bij robot-assisterende minimaal invasieve chirurgie, dat wordt ondersteund door een nieuw dataset met hand- en voetbewegingen en video-opnames van chirurgen die taken uitvoeren op de Raven-II en da Vinci Xi.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

DAV-GSWT is een data-efficiënt framework dat diffusiemodellen en actieve view-sampling combineert om hoogwaardige Gaussian Splatting Wang Tiles te genereren uit minimale input, waardoor de afhankelijkheid van dichtbezaaide voorbeelden voor het creëren van realistische virtuele omgevingen wordt verminderd.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

← Vorige Volgende →

cs.CV