Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Ce papier présente LINO UniPS, une méthode de stéréophotométrie universelle qui utilise des jetons d'enregistrement lumineux et une attention entrelacée pour découpler l'éclairage des normales, ainsi qu'une architecture à double branche basée sur les ondelettes pour préserver les détails géométriques, le tout entraîné sur le nouveau jeu de données PS-Verse pour atteindre des performances de pointe.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Cet article propose un cadre novateur pour la segmentation d'objets camouflés en vocabulaire ouvert, qui utilise un modèle de langage-vision partagé pour guider le modèle SAM dans la localisation précise des objets et fournir un contexte spatial complet pour leur classification, surmontant ainsi les limites des approches précédentes.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Ce papier propose LD-RPS, une méthode unifiée et sans jeu de données pour la restauration d'images qui exploite l'échantillonnage récursif de l'arrière-plan d'un modèle de diffusion latent préentraîné, enrichi par des priors sémantiques multimodaux, pour surpasser les méthodes actuelles dans la gestion de diverses dégradations sans nécessiter de données appariées.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Cet article propose la méthode QAA (Query-based Adaptive Aggregation), une nouvelle technique d'agrégation de caractéristiques qui utilise des requêtes apprises pour surmonter les biais spécifiques aux ensembles de données et permettre un entraînement conjoint multi-ensembles efficace, améliorant ainsi la généralisation et la performance universelle de la reconnaissance visuelle de lieux.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Cet article propose MCULoRA, une nouvelle approche d'adaptation faible rang dynamique et découplée par modalité qui surpasse les méthodes existantes pour la reconnaissance des émotions en résolvant les conflits de gradients lors de l'apprentissage avec des données multimodales incomplètes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Le papier présente π3\pi^3, un réseau de neurones feed-forward permutation-équivariant qui reconstruit la géométrie visuelle sans dépendre d'une vue de référence fixe, surpassant ainsi les méthodes précédentes en précision et en robustesse pour des tâches telles que l'estimation de pose, la profondeur et la reconstruction de nuages de points.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Cet article propose un cadre d'apprentissage profond basé sur les Vision Transformers (ViT) et utilisant des données Sentinel-2 et Formosat-5 pour affiner la segmentation des zones sinistrées via une approche d'apprentissage faible supervision, améliorant ainsi la fiabilité des produits d'urgence (EVAP) développés par l'agence spatiale taïwanaise (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

Cet article présente MIDAR, un modèle de capteur substitut qui enrichit les simulateurs de trafic microscopiques avec une perception LiDAR réaliste et évolutive en utilisant des graphes de visibilité et des transformateurs géométriques, permettant ainsi une évaluation précise des applications de systèmes de transport intelligents sans coût computationnel excessif.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Cette étude présente TransUNet-GradCAM, un modèle hybride combinant Transformers et U-Net qui, grâce à son mécanisme d'attention globale et à ses visualisations explicatives, réalise une segmentation précise et généralisable des ulcères diabétiques du pied sur plusieurs jeux de données cliniques.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

L'article présente S²Q-VDiT, un cadre de quantification post-entraînement pour les transformateurs de diffusion vidéo qui combine une sélection de données saillantes basée sur l'Hessien et une distillation de tokens épars guidée par l'attention pour atteindre des performances sans perte avec une compression et une accélération significatives.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Le papier présente SPEX, un modèle de langage multimodal innovant qui exploite les informations spectrales via un nouvel ensemble de données d'instructions (SPIE) pour réaliser une extraction précise et interprétable des types de couverture terrestre sur des images de télédétection multispectrales, surpassant les méthodes actuelles.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Cet article propose un cadre unifié et sémantiquement ancré pour l'adaptation de domaine en segmentation d'images médicales, qui apprend une variété probabiliste d'anatomies génériques pour permettre une adaptation performante et interprétable sans nécessiter d'alignement explicite entre les domaines source et cible, que ceux-ci soient accessibles ou non.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Cet article présente IAG, la première attaque par porte dérobée multi-cibles adaptative pour les modèles de vision-langage, qui génère dynamiquement des déclencheurs invisibles guidés par le texte pour rediriger la localisation d'objets vers des cibles spécifiques sans compromettre les performances sur des échantillons normaux.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Le papier présente Video-EM, un cadre d'apprentissage gratuit basé sur la mémoire épisodique centrée sur les événements qui transforme la compréhension de vidéos longues en une construction et un raffinement d'événements temporellement cohérents pour surmonter les limites des fenêtres contextuelles des modèles de langage vidéo.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs