cs.CV papers | Gist.Science

Robust Sparse Signal Recovery with Outliers: A Hard Thresholding Pursuit Approach Based on LAD

Dit artikel introduceert het GFHTP₁-algoritme, een robuuste methode voor het exacte herstel van sparse signalen uit met uitbijters vervuilde metingen zonder voorafgaande kennis van de sparsiteit, die theoretisch gegarandeerd binnen $s$ iteraties convergeert en numeriek superieur presteert aan bestaande methoden.

Jiao Xu, Peng Li, Bing Zheng2026-03-09🔢 math

SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem is een geheugencentrisch systeem dat op basis van casual RGB-ego-video een meetkundig 3D-structuur bouwt om langdurige taalkundige zoekopdrachten en vragen over binnenruimtes te ondersteunen zonder speciale sensoren.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

Dit paper introduceert OnlineSI, een framework dat multimodale grote taalmodellen in staat stelt om door middel van een beperkte ruimtelijke geheugenstructuur en integratie van 3D-puntwolkdata continu ruimtelijk begrip en gronding te ontwikkelen voor realtime toepassing in veranderende omgevingen.

Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

Dit paper introduceert SRA 2, een lichtgewicht framework dat de trainingssnelheid en kwaliteit van diffusion transformers verbetert door interne latent features uit te lijnen met pre-getrainde VAE-kenmerken, zonder de noodzaak van zware externe encoders of dubbele modelopzet.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

FARTrack: Fast Autoregressive Visual Tracking with High Performance

FARTrack is een snel en hoogpresterend visueel trackersysteem dat autoregressie, taakspecifieke zelfdistillatie en inter-frame autoregressieve verdunning combineert om real-time prestaties op zowel GPU als CPU te bereiken zonder in te leveren op nauwkeurigheid.

Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Het paper introduceert SpatialReward, een beloningsmodel dat de perceptiekloof in online versterkingsleer voor beeldbewerking overbrugt door expliciete ruimtelijke redenering te gebruiken voor nauwkeurigere evaluatie en verbeterde prestaties.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS) $^2$ -Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

Deze paper introduceert (MGS) $^2$ -Net, een innovatief raamwerk dat micro-geometrische schaal en macro-geometrische structuur unificeert via modules voor schaaladaptatie en structurele filtering om robuuste cross-view geo-localisatie te bereiken onder extreme perspectiefverschillen.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Dit paper introduceert MiDAS, een open-source, platform-onafhankelijk systeem voor tijdgesynchroniseerde, niet-invasieve multimodale dataverzameling bij robot-assisterende minimaal invasieve chirurgie, dat wordt ondersteund door een nieuw dataset met hand- en voetbewegingen en video-opnames van chirurgen die taken uitvoeren op de Raven-II en da Vinci Xi.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

DAV-GSWT is een data-efficiënt framework dat diffusiemodellen en actieve view-sampling combineert om hoogwaardige Gaussian Splatting Wang Tiles te genereren uit minimale input, waardoor de afhankelijkheid van dichtbezaaide voorbeelden voor het creëren van realistische virtuele omgevingen wordt verminderd.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

Robust Self-Supervised Cross-Modal Super-Resolution against Real-World Misaligned Observations

Deze paper introduceert RobSelf, een zelftoezichtend model dat cross-modale super-resolutie op real-world, niet-uitgelijnde data verbetert door online een misalignering-bewuste feature-vertaler en een content-bewuste referentiefilter gezamenlijk te optimaliseren, wat leidt tot state-of-the-art prestaties en een tot 15,3 keer hogere snelheid dan bestaande methoden.

Xiaoyu Dong, Jiahuan Li, Ziteng Cui, Naoto Yokoya2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

Het UrbanAlign-framework kalibreert post-hoc de voorkeuren van menselijke waarnemers voor stedelijke scènes door een bevroren vision-language model te gebruiken als conceptextractor en de output te aligneren met menselijke ratings via een drie-staps proces, waardoor de prestaties aanzienlijk verbeteren zonder dat het model opnieuw getraind hoeft te worden.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

Probing and Bridging Geometry-Interaction Cues for Affordance Reasoning in Vision Foundation Models

Deze studie toont aan dat het combineren van de geometrische structuurherkenning van DINO en de interactie-priors van Flux in een training-vrije, zero-shot methode leidt tot een effectieve affordance-beslissing, wat bevestigt dat deze twee perceptieve capaciteiten de fundamentele bouwstenen zijn voor het begrijpen van interactie in visuele foundation-modellen.

Qing Zhang, Xuesong Li, Jing Zhang2026-03-09💻 cs

StoryTailor:A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives

StoryTailor is een zero-shot pipeline die op een enkele RTX 4090 GPU werkt en door middel van drie synergetische modules (GCA, AB-SVR en SFC) visuele verhalen genereert met meerdere onderwerpen die zowel actiegetrouwheid als identiteitsbehoud combineren met consistente achtergronden.

Jinghao Hu, Yuhe Zhang, GuoHua Geng, Kang Li, Han Zhang2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

Dit paper introduceert UniVBench, een nieuw benchmark en evaluatiesysteem dat is ontworpen om de geïntegreerde capaciteiten van video-fundatiemodellen op het gebied van begrip, generatie, bewerking en reconstructie te beoordelen aan de hand van complexe, mensgemaakte video's en gestandaardiseerde instructies.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Protein Graph Neural Networks for Heterogeneous Cryo-EM Reconstruction

Deze paper introduceert een geometrie-bewuste methode met behulp van een Graph Neural Network die, door gebruik te maken van structuurpriors en ellipsoïdale ondersteuningslifting, nauwkeuriger heterogene cryo-EM reconstructies van eiwitbackbones produceert dan traditionele MLP-modellen.

Jonathan Krook, Axel Janson, Joakim Andén + 2 more2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

Dit paper introduceert DPCache, een trainingsvrij versnellingsframework voor diffusiemodellen dat het afleidingsproces als een globaal padplanningsprobleem formuleert om via dynamische programmering een optimale reeks tijdstappen te selecteren en zo de rekentijd aanzienlijk te verminderen zonder kwaliteitsverlies.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Dit paper introduceert Synthetic Visual Genome 2 (SVG2), een grootschalig panoptisch videoscène-graafdataset gegenereerd via een geautomatiseerde pipeline, en presenteert TRaSER, een model dat deze data gebruikt om de prestaties op object-, attribuut- en relatiedetectie aanzienlijk te verbeteren en video-VQA-taken te ondersteunen.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

Deze paper introduceert een adaptief dynamisch ontzwaaiingskader dat via een gesloten-lusoptimalisatie met taakfeedback en instructiegestuurde aanpassingen de prestaties van diverse downstreamtaken verbetert zonder hertraining.

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Deze paper introduceert PanScale, een groot dataset en benchmark voor cross-schaal pansharpening, en stelt ScaleFormer voor, een nieuw model dat generalisatie over verschillende resoluties mogelijk maakt door beeldtokenisatie en rotatiepositie-encoding, waarmee het de staat-der-kunst prestaties overtreft.

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs

Mobile-VTON: High-Fidelity On-Device Virtual Try-On

Deze paper introduceert Mobile-VTON, een privacyvriendelijk framework dat hoge-kwaliteit virtuele passen op consumentele mobiele apparaten mogelijk maakt door een geoptimaliseerde TGT-architectuur te gebruiken die offline werkt en presteert op het niveau van servergebaseerde systemen.

Zhenchen Wan, Ce Chen, Runqi Lin, Jiaxin Huang, Tianxi Chen, Yanwu Xu, Tongliang Liu, Mingming Gong2026-03-09💻 cs

← Vorige Volgende →

cs.CV