SpatialMem: Metric-Aligned Long-Horizon Video Memory for Language Grounding and QA

SpatialMem est un système centré sur la mémoire qui utilise une structure spatiale 3D métrique comme index interprétable pour permettre la récupération et les questions-réponses basées sur le langage à partir de vidéos egocentriques à long horizon, sans nécessiter de capteurs spécialisés.

Xinyi Zheng, Yunze Liu, Chi-Hao Wu, Fan Zhang, Hao Zheng, Wenqi Zhou, Walterio W. Mayol-Cuevas, Junxiao Shen2026-03-09🤖 cs.AI

OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding

Ce papier présente OnlineSI, un cadre innovant permettant aux modèles de langage multimodaux d'améliorer continuellement leur compréhension et leur ancrage spatiaux dans des environnements dynamiques en utilisant une mémoire spatiale finie et des données de nuages de points 3D, tout en introduisant une nouvelle métrique d'évaluation pour les systèmes embarqués réels.

Zixian Liu, Zhaoxi Chen, Liang Pan, Ziwei Liu2026-03-09💻 cs

SRA 2: Variational Autoencoder Self-Representation Alignment for Efficient Diffusion Training

Le papier propose SRA 2, un cadre d'alignement intrinsèque et léger qui utilise les caractéristiques de VAE pré-entraînés pour accélérer l'entraînement des transformateurs de diffusion sans dépendre de modèles externes coûteux, améliorant ainsi à la fois la qualité de génération et la vitesse de convergence.

Mengmeng Wang, Dengyang Jiang, Liuzhuozheng Li, Yucheng Lin, Guojiang Shen, Xiangjie Kong, Yong Liu, Guang Dai, Jingdong Wang2026-03-09💻 cs

FARTrack: Fast Autoregressive Visual Tracking with High Performance

Le papier présente FARTrack, un cadre de suivi visuel autoregressif rapide qui allie haute performance et exécution efficace sur divers appareils grâce à une distillation auto-supervisée spécifique aux tâches et à une sparsification inter-image, permettant d'atteindre 343 images par seconde sur GPU tout en maintenant un score AO de 70,6 % sur GOT-10k.

Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei2026-03-09💻 cs

SpatialReward: Bridging the Perception Gap in Online RL for Image Editing via Explicit Spatial Reasoning

Le papier propose SpatialReward, un modèle de récompense qui comble le fossé de perception dans l'apprentissage par renforcement en ligne pour l'édition d'images en intégrant un raisonnement spatial explicite, permettant ainsi d'obtenir des performances de pointe sur plusieurs benchmarks et d'améliorer significativement les modèles de génération comme OmniGen2.

Yancheng Long, Yankai Yang, Hongyang Wei, Wei Chen, Tianke Zhang, Haonan fan, Changyi Liu, Kaiyu Jiang, Jiankang Chen, Kaiyu Tang, Bin Wen, Fan Yang, Tingting Gao, Han Li, Shuo Yang2026-03-09💻 cs

(MGS)2^2-Net: Unifying Micro-Geometric Scale and Macro-Geometric Structure for Cross-View Geo-Localization

Le papier propose (MGS)2^2-Net, un cadre géométrique unifié qui intègre le filtrage de structure macro-géométrique et l'adaptation d'échelle micro-géométrique pour surmonter les désalignements entre vues aériennes obliques et images satellites, atteignant ainsi des performances de pointe en géolocalisation croisée.

Minglei Li, Mengfan He, Chunyu Li, Chao Chen, Xingyu Shao, Ziyang Meng2026-03-09💻 cs

MiDAS: A Multimodal Data Acquisition System and Dataset for Robot-Assisted Minimally Invasive Surgery

Ce papier présente MiDAS, un système open-source et agnostique de plateforme permettant l'acquisition multimodale non invasive et synchronisée de données pour la chirurgie robotique mini-invasive, validé sur des robots Raven-II et da Vinci Xi avec des jeux de données annotés incluant des tâches de suture de hernie.

Keshara Weerasinghe (MD), Seyed Hamid Reza Roodabeh (MD), Andrew Hawkins (MD), Zhaomeng Zhang, Zachary Schrader, Homa Alemzadeh2026-03-09🤖 cs.LG

DAV-GSWT: Diffusion-Active-View Sampling for Data-Efficient Gaussian Splatting Wang Tiles

Le papier présente DAV-GSWT, un cadre efficace en données qui combine des modèles de diffusion et un échantillonnage actif de vues pour générer des tuiles de Gaussien Splatting de haute fidélité à partir d'observations minimales, réduisant ainsi considérablement le volume de données requis tout en préservant l'intégrité visuelle des environnements virtuels à grande échelle.

Rong Fu, Jiekai Wu, Haiyun Wei, Yee Tan Jia, Yang Li, Xiaowen Ma, Wangyu Wu, Simon Fong2026-03-09💻 cs

UrbanAlign: Post-hoc Semantic Calibration for VLM-Human Preference Alignment

L'article présente UrbanAlign, une méthode post-hoc qui aligne les modèles vision-langage sur les préférences humaines pour l'évaluation urbaine sans modifier leurs poids, en exploitant leur capacité d'extraction de concepts via un pipeline d'évaluation interprétable et une calibration par régression.

Yecheng Zhang, Rong Zhao, Zhizhou Sha, Yong Li, Lei Wang, Ce Hou, Wen Ji, Hao Huang, Yunshan Wan, Jian Yu, Junhao Xia, Yuru Zhang, Chunlei Shi2026-03-09💻 cs

UniVBench: Towards Unified Evaluation for Video Foundation Models

Ce papier présente UniVBench, un benchmark unifié et un système d'évaluation agentic (UniV-Eval) conçus pour évaluer de manière holistique les capacités des modèles de fondation vidéo dans la compréhension, la génération, l'édition et la reconstruction de vidéos complexes, comblant ainsi le fossé des évaluations fragmentées existantes.

Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu2026-03-09💻 cs

Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache

Le papier propose DPCache, un cadre d'accélération sans entraînement pour les modèles de diffusion qui formule l'échantillonnage comme un problème de planification de chemin global pour sélectionner dynamiquement les étapes clés et minimiser les erreurs, permettant ainsi d'obtenir une accélération significative sans perte de qualité.

Bowen Cui, Yuanbin Wang, Huajiang Xu, Biaolong Chen, Aixi Zhang, Hao Jiang, Zhengzheng Jin, Xu Liu, Pipei Huang2026-03-09💻 cs

Synthetic Visual Genome 2: Extracting Large-scale Spatio-Temporal Scene Graphs from Videos

Ce papier présente Synthetic Visual Genome 2 (SVG2), un jeu de données massif de graphes de scènes vidéo panoptiques généré automatiquement, ainsi que TRaSER, un modèle qui exploite ce corpus pour améliorer significativement la détection de relations et d'objets dans les vidéos par rapport aux meilleures méthodes existantes.

Ziqi Gao, Jieyu Zhang, Wisdom Oluchi Ikezogwo, Jae Sung Park, Tario G. You, Daniel Ogbu, Chenhao Zheng, Weikai Huang, Yinuo Yang, Winson Han, Quan Kong, Rajat Saini, Ranjay Krishna2026-03-09💻 cs

Adaptive Dynamic Dehazing via Instruction-Driven and Task-Feedback Closed-Loop Optimization for Diverse Downstream Task Adaptation

Cet article propose un cadre de déhazing adaptatif et dynamique qui utilise une boucle d'optimisation fermée, combinant des retours de tâches en aval et des instructions textuelles, pour ajuster en temps réel la suppression du brouillard sans réentraînement afin de répondre aux besoins spécifiques de diverses applications.

Yafei Zhang, Shuaitian Song, Huafeng Li, Shujuan Wang, Yu Liu2026-03-09💻 cs

Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark

Ce papier présente PanScale, un nouveau jeu de données et une référence pour l'évaluation de la fusion d'images multispectrales à différentes échelles, ainsi que ScaleFormer, une architecture innovante qui améliore la généralisation cross-échelle en traitant les résolutions comme des longueurs de séquences variables.

Ke Cao, Xuanhua He, Xueheng Li, Lingting Zhu, Yingying Wang, Ao Ma, Zhanjie Zhang, Man Zhou, Chengjun Xie, Jie Zhang2026-03-09💻 cs