cs.CV papers | Gist.Science

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

OVGGT is een trainingsvrij framework dat de reconstructie van 3D-geometrie uit oneindig lange videostreams mogelijk maakt door het geheugen- en rekgebruik constant te houden via zelf-selectieve caching en dynamische ankerbescherming, zonder in te leveren op nauwkeurigheid.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

Dit paper introduceert een trainingsvrij framework voor open-vocabulaire objectherkenning dat objectsegmentatie combineert met CLIP-gebaseerde of CNN/MLP-gebaseerde embeddings, wat resulteert in een hogere prestatie dan bestaande methoden op datasets zoals COCO en Pascal VOC.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Deze paper introduceert Skeleton-to-Image Encoding (S2I), een nieuwe methode die skeletdata omzet in afbeeldingen om zo krachtige, voorgetrainde visiemodellen te kunnen gebruiken voor zelftoezichthoudend leren van skeletrepresentaties en zo de uitdagingen van dataformaten en schaarste aan datasets aan te pakken.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Het artikel introduceert CR-QAT, een curriculum-gebaseerd raamwerk voor kwantisatiebewust trainen dat door middel van gefaseerde optimalisatie en relationele kennisdistillatie de prestaties van open-vocabulaire objectdetectie bij agressieve kwantisatie (zoals 4-bit) aanzienlijk verbetert zonder de visueel-taaluitlijning te verstoren.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

Dit paper introduceert PROBE, een leervrije LiDAR-locatieherkenningsmethode die probabilistische bezettingskaarten in een BEV-ruimte gebruikt en via analytische translatie-robustheid en FFT-gebaseerde rotatiealignatie toonaangevende prestaties bereikt zonder dataset-specifieke tuning.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Dit paper introduceert ProCap, een nieuw raamwerk dat verandercaptioning transformeert van statische beeldvergelijking naar dynamisch proceduremodeling door een twee-traps architectuur te gebruiken die een procedure-encoder en leerbare query's combineert om expliciet te beschrijven hoe veranderingen plaatsvinden.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Dit paper introduceert DynUAV, een nieuw en uitdagend benchmark voor multi-object tracking vanuit UAV-perspectief dat specifiek is ontworpen om de beperkingen van bestaande methoden bloot te leggen door complexe, dynamische bewegingen en ongunstige omstandigheden te simuleren.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Deze paper introduceert een nieuw raamwerk voor referentiegebaseerde kleuring van schetsen dat door middel van een dubbelvertakkingsarchitectuur en Gram-regularisatie de distributieshift tussen trainings- en inferentiegegevens direct minimaliseert, waardoor state-of-the-art prestaties worden bereikt in kwaliteit, resolutie en controleerbaarheid.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Dit onderzoek introduceert HarvestFlex, het eerste systeem dat vision-language-action (VLA)-policies succesvol toepast voor het oogsten van aardbeien in een ongestructureerde kasomgeving met slechts vier uur tele-geopereerde demonstratiegegevens, waarbij een aangepaste pi_0.5-politiek een slagingspercentage van 74,0% bereikte.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Dit technische rapport beschrijft een samenwerking met toonaangevende Pakistanese producenten om een automatisch optisch inspectiesysteem te ontwikkelen, dat gebruikmaakt van diepe leerarchitecturen zoals YOLOv8, ResNet-152 en EfficientNet-b4 om defecten in chirurgische instrumenten te detecteren en zo de patiëntveiligheid en productkwaliteit te waarborgen.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Het artikel introduceert MM-ISTS, een multimodaal kader dat vision-text large language models gebruikt om onregelmatig bemonsterde tijdreeksvoorspellingen te verbeteren door historische data te combineren met gegenereerde visuele en tekstuele context voor een dieper semantisch en temporair inzicht.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

RePer-360 is een zelfmodulerend framework dat bestaande dieptefondsenmodellen voor perspectiefafbeeldingen effectief aanpast aan 360°-panoramische beelden door vervormingsbewuste priors te behouden, waardoor het met slechts 1% van de trainingsdata aanzienlijk betere prestaties levert dan standaard fijnafstemming.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Dit paper introduceert IGAR, een train-vrije methode die de 'taalkundige blindheid' in Vision-Language-Action-modellen oplost door de aandacht tijdens de inferentie te herkalibreren, zodat robots instructies correct volgen zelfs bij tegenstrijdige visuele prikkels.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

Dit paper introduceert RepKAN, een nieuw architectuurconcept dat de structurele efficiëntie van CNNs combineert met de niet-lineaire representatiekracht van KANs om interpreteerbare en superieure prestaties te bereiken bij de classificatie van aardobservatiebeelden.

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

EffectMaker is een unificerend raamwerk dat een multimodaal taalmodel en een diffusiemodel combineert om aangepaste visuele effecten te genereren zonder per-effect fine-tuning, ondersteund door een nieuw, groot synthetisch dataset genaamd EffectData.

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

Deze paper introduceert MOSIV, een nieuw raamwerk dat video's gebruikt om continue materiaaleigenschappen van meerdere objecten tegelijkertijd te identificeren via een differentieerbare simulator en een nieuw synthetisch benchmark, wat aanzienlijk betere resultaten oplevert dan bestaande methoden.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

ViewFusion is een tweestapsframework dat multi-view ruimtelijke redenering verbetert door expliciete kruisbeeldvoorberekening te scheiden van de uiteindelijke vraagbeantwoording, wat leidt tot een significant hogere nauwkeurigheid op MMSI-Bench.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

StruVis is een nieuw framework dat de tekst-naar-beeldgeneratie verbetert door complexe prompts te analyseren via gestructureerde visuele representaties in plaats van tussenliggende afbeeldingen, waardoor het rekenvermogen van multimodale modellen wordt geoptimaliseerd zonder de hoge kosten van bestaande methoden.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Dit paper introduceert OA-SORT, een trainingsvrij en plug-and-play framework dat door middel van een Occlusion-Aware Module, Occlusion-Aware Offset en Bias-Aware Momentum de prestaties van multi-object tracking verbetert door verwarrende kosten door gedeeltelijke occlusie te verminderen.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Dit onderzoek toont aan dat stratified subsampling op hyperkolommen, gecombineerd met ensemble learning, de prestaties van beeldsegmentatie aanzienlijk verbetert, vooral in situaties met zeer weinig trainingsdata waar een eenvoudige logistische regressie de beste resultaten levert.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

← Vorige Volgende →

cs.CV