HiconAgent: History Context-aware Policy Optimization for GUI Agents

Le papier présente HiconAgent, un agent d'interface graphique optimisé par HCPO qui utilise l'échantillonnage dynamique de contexte et la compression guidée par ancrage pour exploiter efficacement l'historique, surpassant ainsi des modèles plus grands avec une réduction significative des coûts computationnels.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Cette étude révèle que l'information des tokens visuels dans les modèles VLLM s'efface au-delà d'une « horizon d'information » variable selon la tâche et la capacité du modèle, démontrant ainsi que l'élagage aléatoire des tokens dans les couches profondes est aussi efficace que les méthodes existantes et permet d'accélérer l'inférence sans perte significative de performance.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Cet article présente WildRoad, un nouveau jeu de données mondial pour les routes hors-piste, et MaGRoad, un cadre d'extraction de réseaux routiers vectoriels basé sur un raisonnement centré sur le chemin qui surpasse les méthodes existantes en termes de robustesse topologique et d'efficacité dans les environnements sauvages.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

Two-Step Data Augmentation for Masked Face Detection and Recognition: Turning Fake Masks to Real

Cet article propose un cadre d'augmentation de données en deux étapes combinant un warping de masques basé sur des règles et une traduction d'images non appariée par GAN pour générer des échantillons de visages masqués réalistes, améliorant ainsi la détection et la reconnaissance malgré des contraintes de ressources et de données limitées.

Yan Yang, George Bebis, Mircea Nicolescu2026-03-10🤖 cs.LG

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Cette étude révèle que, bien que les écarts entre la perception subjective et la mesure objective de la végétation urbaine soient universels et peu influencés par la démographie ou la personnalité, le lieu de résidence des individus constitue le facteur déterminant dans l'explication de ces différences perceptuelles.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

Ce papier présente un cadre d'apprentissage profond novateur et économe en calcul, baptisé Efficient Vision Mamba, qui combine des modèles d'état spatial sélectif à plusieurs têtes et un MLP léger pour réaliser une super-résolution IRM précise et efficace, surpassant les méthodes existantes tout en étant adapté à une intégration clinique.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Le papier présente DrivingGen, le premier benchmark complet pour les modèles mondiaux génératifs de conduite autonome, qui comble les lacunes des évaluations existantes en proposant un ensemble de données diversifié et une suite de métriques rigoureuses pour évaluer simultanément le réalisme visuel, la plausibilité des trajectoires, la cohérence temporelle et la contrôlabilité.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Cet article présente un cadre vision-langage léger et explicable en deux étapes, basé sur un encodeur Swin Transformer et des décodeurs de type T5, qui atteint des performances quasi parfaites dans la classification des maladies des cultures et la réponse aux questions visuelles (VQA) tout en offrant une interprétabilité des prédictions.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Ce papier présente R^4, un cadre agentic auto-améliorant qui décompose l'analyse d'images médicales en quatre agents coordonnés (routage, récupération, réflexion et réparation) pour générer des rapports et des localisations plus fiables et mieux ancrés sans nécessiter de fine-tuning par gradient.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Ce papier présente S2DiT, un modèle de diffusion Transformer optimisé pour la génération de vidéos en flux continu sur mobile, qui allie haute fidélité et efficacité (plus de 10 FPS sur iPhone) grâce à une architecture « sandwich » innovante et un cadre de distillation avancé.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

Ce papier présente ReViP, un cadre novateur pour les modèles Vision-Language-Action qui atténue les complétions fausses en rééquilibrant l'attention entre la vision et la proprioception grâce à des indices visuels conscients du progrès, tout en introduisant une nouvelle suite de benchmarks pour évaluer ce phénomène.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Ce papier présente ScenePilot-Bench, une nouvelle évaluation à grande échelle conçue pour mesurer les capacités des modèles vision-langage dans la conduite autonome en s'appuyant sur le vaste jeu de données ScenePilot-4K et une suite d'indicateurs multidimensionnels axés sur la sécurité.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Cet article propose une nouvelle méthode d'interaction spatiale-temporelle-fréquentielle guidée par la requête (QSTar), enrichie par un bloc de raisonnement contextuel (QCR), pour améliorer la compréhension audio-visuelle dans les tâches de réponse aux questions (AVQA) en intégrant plus efficacement les indices textuels et les caractéristiques fréquentielles du son.

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

Le papier présente MeanCache, un cadre d'accélération sans entraînement pour l'inférence Flow Matching qui remplace le cache de vitesse instantanée par une approche de vitesse moyenne utilisant des produits Jacobien-vecteur, permettant d'obtenir des accélérations allant jusqu'à 4,56 fois sur des modèles de pointe comme FLUX.1 tout en préservant la qualité de génération.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG