cs.CV papers | Gist.Science

FTSplat: Feed-forward Triangle Splatting Network

FTSplat is een feed-forward framework dat directe, simulatieklare driehoeksoppervlakken voorspelt uit meervoudige beelden, waardoor de noodzaak voor tijdrovende per-scene optimalisatie wordt weggenomen en de integratie met grafische en robotische simulatoren wordt vergemakkelijkt.

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

Dit paper introduceert OD-RASE, een raamwerk dat een ontologie en grote visuele taalmodellen combineert om proactief onveilige wegstructuren te identificeren en verbeteringsvoorstellen te genereren, waardoor de veiligheid van autonome voertuigen wordt verhoogd en de reactieve aanpak van verkeersveiligheid wordt doorbroken.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

Dit paper introduceert een Residual Masking Network dat een segmentatie-netwerk combineert met een Deep Residual Network om de prestaties van gezichtsepressierecognitie te verbeteren door middel van een nieuw maskeringsmechanisme dat de focus op relevante informatie legt.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

Het paper introduceert SLER-IR, een revolutionair beeldherstelframework dat dynamische expert-routing op een hypersfeer en een nieuwe module voor het samenvoegen van globale en lokale details combineert om superieure prestaties te behalen bij het herstellen van beelden met diverse en niet-uniforme degradaties.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

Dit paper introduceert een robuuste methode voor het schatten van de kantelhoek van documentafbeeldingen door adaptieve radiale projectie toe te passen op het Fourier-magnitude-spectrum, vergezeld van een nieuwe dataset (DISE-2021) en uitgebreide analyses die aantonen dat de voorgestelde aanpak superieur is aan bestaande methoden.

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

Het paper introduceert LucidNFT, een multi-beloning RL-framework voor generatieve super-resolutie van real-world beelden dat d.m.v. een robuuste faithfulness-evaluator, een ontkoppelde normalisatiestrategie en een groot real-wereld dataset de balans tussen perceptuele kwaliteit en LR-gebaseerde trouw verbetert zonder hallucinaties.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

Het paper introduceert E-AdaPrune, een energie-gedreven adaptief raamwerk dat de visuele token-begroting voor Vision-Language Models dynamisch aanpast op basis van spectrale energie om de efficiëntie te verhogen zonder extra leerbare parameters.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

Dit paper introduceert VINE, een nieuw raamwerk voor few-shot segmentatie dat structurele consistentie en discriminatie over verschillende perspectieven verenigt via een ruimtelijk-view graaf en een voorgrond-prior om robuuste prototypes te genereren voor nauwkeurige maskergeneratie.

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

OVGGT is een trainingsvrij framework dat de reconstructie van 3D-geometrie uit oneindig lange videostreams mogelijk maakt door het geheugen- en rekgebruik constant te houden via zelf-selectieve caching en dynamische ankerbescherming, zonder in te leveren op nauwkeurigheid.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

Dit paper introduceert een trainingsvrij framework voor open-vocabulaire objectherkenning dat objectsegmentatie combineert met CLIP-gebaseerde of CNN/MLP-gebaseerde embeddings, wat resulteert in een hogere prestatie dan bestaande methoden op datasets zoals COCO en Pascal VOC.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

Deze paper introduceert Skeleton-to-Image Encoding (S2I), een nieuwe methode die skeletdata omzet in afbeeldingen om zo krachtige, voorgetrainde visiemodellen te kunnen gebruiken voor zelftoezichthoudend leren van skeletrepresentaties en zo de uitdagingen van dataformaten en schaarste aan datasets aan te pakken.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

Het artikel introduceert CR-QAT, een curriculum-gebaseerd raamwerk voor kwantisatiebewust trainen dat door middel van gefaseerde optimalisatie en relationele kennisdistillatie de prestaties van open-vocabulaire objectdetectie bij agressieve kwantisatie (zoals 4-bit) aanzienlijk verbetert zonder de visueel-taaluitlijning te verstoren.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

Dit paper introduceert PROBE, een leervrije LiDAR-locatieherkenningsmethode die probabilistische bezettingskaarten in een BEV-ruimte gebruikt en via analytische translatie-robustheid en FFT-gebaseerde rotatiealignatie toonaangevende prestaties bereikt zonder dataset-specifieke tuning.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Dit paper introduceert ProCap, een nieuw raamwerk dat verandercaptioning transformeert van statische beeldvergelijking naar dynamisch proceduremodeling door een twee-traps architectuur te gebruiken die een procedure-encoder en leerbare query's combineert om expliciet te beschrijven hoe veranderingen plaatsvinden.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Dit paper introduceert DynUAV, een nieuw en uitdagend benchmark voor multi-object tracking vanuit UAV-perspectief dat specifiek is ontworpen om de beperkingen van bestaande methoden bloot te leggen door complexe, dynamische bewegingen en ongunstige omstandigheden te simuleren.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Deze paper introduceert een nieuw raamwerk voor referentiegebaseerde kleuring van schetsen dat door middel van een dubbelvertakkingsarchitectuur en Gram-regularisatie de distributieshift tussen trainings- en inferentiegegevens direct minimaliseert, waardoor state-of-the-art prestaties worden bereikt in kwaliteit, resolutie en controleerbaarheid.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Dit onderzoek introduceert HarvestFlex, het eerste systeem dat vision-language-action (VLA)-policies succesvol toepast voor het oogsten van aardbeien in een ongestructureerde kasomgeving met slechts vier uur tele-geopereerde demonstratiegegevens, waarbij een aangepaste pi_0.5-politiek een slagingspercentage van 74,0% bereikte.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Dit technische rapport beschrijft een samenwerking met toonaangevende Pakistanese producenten om een automatisch optisch inspectiesysteem te ontwikkelen, dat gebruikmaakt van diepe leerarchitecturen zoals YOLOv8, ResNet-152 en EfficientNet-b4 om defecten in chirurgische instrumenten te detecteren en zo de patiëntveiligheid en productkwaliteit te waarborgen.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

Het artikel introduceert MM-ISTS, een multimodaal kader dat vision-text large language models gebruikt om onregelmatig bemonsterde tijdreeksvoorspellingen te verbeteren door historische data te combineren met gegenereerde visuele en tekstuele context voor een dieper semantisch en temporair inzicht.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

RePer-360 is een zelfmodulerend framework dat bestaande dieptefondsenmodellen voor perspectiefafbeeldingen effectief aanpast aan 360°-panoramische beelden door vervormingsbewuste priors te behouden, waardoor het met slechts 1% van de trainingsdata aanzienlijk betere prestaties levert dan standaard fijnafstemming.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

← Vorige Volgende →

cs.CV