HiconAgent: History Context-aware Policy Optimization for GUI Agents

HiconAgent is een nieuwe GUI-agent die met de History Context-aware Policy Optimization (HCPO) methode, bestaande uit Dynamische Context Sampling en Anker-gestuurde Historiecompressie, historische context efficiënter gebruikt dan bestaande modellen, wat leidt tot betere prestaties en aanzienlijke reducties in rekenkosten.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

In dit paper wordt MAViD voorgesteld, een innovatief multimodaal raamwerk met een Conductor-Creator-architectuur dat geïntegreerde audio-visual dialogue-understanding en -generatie mogelijk maakt door autoregressieve en diffusiemodellen te combineren voor het creëren van levendige, contextueel samenhangende en langdurige interacties.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Deze paper introduceert het concept van een "informatiehorizon" in Vision Large Language Models, waarbij visuele tokens in diepere lagen hun relevantie verliezen en willekeurige pruning in deze lagen de inferentie-efficiëntie aanzienlijk verbetert zonder de prestaties te schaden.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Dit paper introduceert een tweestaps generatief data-augmentatieframework dat regelgebaseerde maskervervorming combineert met GAN-gebaseerde beeld-naar-beeld vertaling om effectieve gemaskerde gezichtsdetectie en -herkenning mogelijk te maken met een zeer kleine dataset, terwijl het ook de beperkte academische en financiële omstandigheden achter de totstandkoming van het werk belicht.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Deze studie toont aan dat de discrepantie tussen objectieve metingen en subjectieve waarneming van stedelijke groenruimtes wereldwijd vergelijkbaar is en voornamelijk wordt beïnvloed door de woonlocatie en visuele factoren, terwijl demografische kenmerken en persoonlijkheid slechts een beperkte rol spelen.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

Deze studie introduceert een uiterst efficiënt en nauwkeurig deep learning-framework voor MRI-superresolutie, genaamd Efficient Vision Mamba, dat door middel van een hybride selectieve scanning en een lichtgewicht architectuur met slechts 0,9 miljoen parameters aanzienlijk betere beeldkwaliteit levert dan bestaande methoden, waardoor het grote potentieel heeft voor klinische toepassing.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Dit paper introduceert DrivingGen, het eerste uitgebreide benchmarkkader voor generatieve wereldmodellen in autonoom rijden, dat een diverse dataset en nieuwe meetmaten combineert om de prestaties van bestaande modellen op het gebied van visuele realisme, trajectplausibiliteit, temporele coherentie en controleerbaarheid te evalueren.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Deze paper introduceert R^4, een zelfverbeterend agentisch framework dat medische beeldanalyse verbetert door het werkproces te ontleden in vier gecoördineerde agenten (Router, Retriever, Reflector en Repairer), waardoor de betrouwbaarheid en ruimtelijke nauwkeurigheid van visueel-taalmodellen voor het genereren van rapporten en detectie van afwijkingen aanzienlijk stijgt zonder gradient-based fine-tuning.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Dit onderzoek onthult dat de LAION-Aesthetics Predictor, een veelgebruikt model voor het beoordelen van beeldkwaliteit, systematische vooroordelen vertoont die de westerse en mannelijke blik versterken door afbeeldingen met vrouwelijke of niet-westerse elementen te discrimineren, en pleit voor een verschuiving naar meer pluriforme evaluatiemethoden.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Dit paper introduceert S2DiT, een efficiënt 'sandwich' Diffusion Transformer-model dat door middel van innovatieve attention-mechanismen en distillatie real-time, hoogwaardige video's genereert op mobiele apparaten met prestaties die vergelijkbaar zijn met servermodellen.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Het artikel introduceert ReViP, een nieuw VLA-framework dat de foutieve taakvoltooiing in robotmanipulatie vermindert door een onbalans tussen visuele en proprioceptieve signalen te corrigeren via progressiebewuste visuele aanwijzingen, wat resulteert in een aanzienlijke verbetering van de robuustheid en het succespercentage.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

In dit artikel wordt ScenePilot-Bench geïntroduceerd, een uitgebreid benchmark- en datasetkader dat is ontworpen om de prestaties van vision-language modellen te evalueren in autonome rijscenario's aan de hand van een veerassessessiesysteem dat zich richt op situatiebegrip, ruimtelijke perceptie, bewegingsplanning en veiligheid.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Dit paper introduceert MeanCache, een trainingsvrij caching-framework dat Flow Matching-inferentie versnelt door in plaats van momentane snelheid gemiddelde snelheden te gebruiken via Jacobiaan-vectorproducten, wat leidt tot aanzienlijke versnelling (tot 4,56x) en verbeterde kwaliteitsbehoud bij generatieve modellen zoals FLUX.1 en HunyuanVideo.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG