cs.CV papers | Gist.Science

HiconAgent: History Context-aware Policy Optimization for GUI Agents

HiconAgent is een nieuwe GUI-agent die met de History Context-aware Policy Optimization (HCPO) methode, bestaande uit Dynamische Context Sampling en Anker-gestuurde Historiecompressie, historische context efficiënter gebruikt dan bestaande modellen, wat leidt tot betere prestaties en aanzienlijke reducties in rekenkosten.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

In dit paper wordt MAViD voorgesteld, een innovatief multimodaal raamwerk met een Conductor-Creator-architectuur dat geïntegreerde audio-visual dialogue-understanding en -generatie mogelijk maakt door autoregressieve en diffusiemodellen te combineren voor het creëren van levendige, contextueel samenhangende en langdurige interacties.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Deze paper introduceert het concept van een "informatiehorizon" in Vision Large Language Models, waarbij visuele tokens in diepere lagen hun relevantie verliezen en willekeurige pruning in deze lagen de inferentie-efficiëntie aanzienlijk verbetert zonder de prestaties te schaden.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Deze paper introduceert MaGRoad, een padgerichte methode voor robuuste extractie van wegnetwerken in off-road omgevingen, en presenteert tegelijkertijd het WildRoad-dataset om de bestaande beperkingen van bestaande modellen op te lossen.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Dit paper introduceert een tweestaps generatief data-augmentatieframework dat regelgebaseerde maskervervorming combineert met GAN-gebaseerde beeld-naar-beeld vertaling om effectieve gemaskerde gezichtsdetectie en -herkenning mogelijk te maken met een zeer kleine dataset, terwijl het ook de beperkte academische en financiële omstandigheden achter de totstandkoming van het werk belicht.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Dit artikel introduceert SALVE, een unificerend raamwerk dat mechanische interpreteerbaarheid en modelbewerking combineert door middel van een sparse autoencoder en Grad-FAM om neurale netwerken te ontdekken, valideren en permanent te controleren via precisie-ingrepen in de gewichtenruimte.

Vegard Flovik2026-03-10🤖 cs.LG

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

Het paper introduceert ReMeDI-SAM3, een trainingsvrije uitbreiding van SAM3 die door middel van relevante geheugenfiltering, interpolatie en tijdsgebonden re-identificatie de nauwkeurigheid van chirurgische instrumentsegmentatie in endoscopie significant verbetert, zelfs bij frequente occlusies.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Deze studie toont aan dat de discrepantie tussen objectieve metingen en subjectieve waarneming van stedelijke groenruimtes wereldwijd vergelijkbaar is en voornamelijk wordt beïnvloed door de woonlocatie en visuele factoren, terwijl demografische kenmerken en persoonlijkheid slechts een beperkte rol spelen.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Dit paper introduceert Re-Depth Anything, een testtijd-framework dat monokulaire diepsschatting verbetert door foundation modellen te combineren met grote 2D-diffusiemodellen via zelftoezicht op basis van hersynthese van belichting en Shape-from-Shading, zonder labels te vereisen.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

Dit paper introduceert VOIC, een nieuw dual-decoder framework dat camera-gebaseerde 3D semantische scène-completie verbetert door zichtbare en verduisterde gebieden expliciet te ontkoppelen, waardoor de interferentie tussen hoge en lage betrouwbaarheidsregio's wordt verminderd en state-of-the-art resultaten worden behaald op benchmarks zoals SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

Deze studie introduceert een uiterst efficiënt en nauwkeurig deep learning-framework voor MRI-superresolutie, genaamd Efficient Vision Mamba, dat door middel van een hybride selectieve scanning en een lichtgewicht architectuur met slechts 0,9 miljoen parameters aanzienlijk betere beeldkwaliteit levert dan bestaande methoden, waardoor het grote potentieel heeft voor klinische toepassing.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Dit paper introduceert DrivingGen, het eerste uitgebreide benchmarkkader voor generatieve wereldmodellen in autonoom rijden, dat een diverse dataset en nieuwe meetmaten combineert om de prestaties van bestaande modellen op het gebied van visuele realisme, trajectplausibiliteit, temporele coherentie en controleerbaarheid te evalueren.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Dit artikel presenteert een lichtgewicht, twee-traps vision-language framework dat Swin Transformer en T5 combineert voor uitlegbare visuele vraag-antwoordtaken bij gewasziektes, waarbij hoge nauwkeurigheid en generalisatie worden bereikt op de CDDM- en PlantVillageVQA-datasets.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Deze paper introduceert R^4, een zelfverbeterend agentisch framework dat medische beeldanalyse verbetert door het werkproces te ontleden in vier gecoördineerde agenten (Router, Retriever, Reflector en Repairer), waardoor de betrouwbaarheid en ruimtelijke nauwkeurigheid van visueel-taalmodellen voor het genereren van rapporten en detectie van afwijkingen aanzienlijk stijgt zonder gradient-based fine-tuning.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Dit onderzoek onthult dat de LAION-Aesthetics Predictor, een veelgebruikt model voor het beoordelen van beeldkwaliteit, systematische vooroordelen vertoont die de westerse en mannelijke blik versterken door afbeeldingen met vrouwelijke of niet-westerse elementen te discrimineren, en pleit voor een verschuiving naar meer pluriforme evaluatiemethoden.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Dit paper introduceert S2DiT, een efficiënt 'sandwich' Diffusion Transformer-model dat door middel van innovatieve attention-mechanismen en distillatie real-time, hoogwaardige video's genereert op mobiele apparaten met prestaties die vergelijkbaar zijn met servermodellen.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Het artikel introduceert ReViP, een nieuw VLA-framework dat de foutieve taakvoltooiing in robotmanipulatie vermindert door een onbalans tussen visuele en proprioceptieve signalen te corrigeren via progressiebewuste visuele aanwijzingen, wat resulteert in een aanzienlijke verbetering van de robuustheid en het succespercentage.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

In dit artikel wordt ScenePilot-Bench geïntroduceerd, een uitgebreid benchmark- en datasetkader dat is ontworpen om de prestaties van vision-language modellen te evalueren in autonome rijscenario's aan de hand van een veerassessessiesysteem dat zich richt op situatiebegrip, ruimtelijke perceptie, bewegingsplanning en veiligheid.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Deze paper introduceert QSTar, een nieuwe methode voor Audio-Visuele Vraagbeantwoording die vraaggestuurde aanwijzingen en frequentiedomein-kenmerken van audio combineert met ruimtelijke en temporele perceptie om de gezamenlijke redenering over audio, video en tekst aanzienlijk te verbeteren.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Dit paper introduceert MeanCache, een trainingsvrij caching-framework dat Flow Matching-inferentie versnelt door in plaats van momentane snelheid gemiddelde snelheden te gebruiken via Jacobiaan-vectorproducten, wat leidt tot aanzienlijke versnelling (tot 4,56x) en verbeterde kwaliteitsbehoud bij generatieve modellen zoals FLUX.1 en HunyuanVideo.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

← Vorige Volgende →