Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Ce papier présente LINO UniPS, une méthode de stéréophotométrie universelle qui utilise des jetons d'enregistrement lumineux et une attention entrelacée pour découpler l'éclairage des normales, ainsi qu'une architecture à double branche basée sur les ondelettes pour préserver les détails géométriques, le tout entraîné sur le nouveau jeu de données PS-Verse pour atteindre des performances de pointe.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Cet article propose un cadre novateur pour la segmentation d'objets camouflés en vocabulaire ouvert, qui utilise un modèle de langage-vision partagé pour guider le modèle SAM dans la localisation précise des objets et fournir un contexte spatial complet pour leur classification, surmontant ainsi les limites des approches précédentes.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

WaLi: Can Pressure Sensors in HVAC Systems Capture Human Speech?

Ce papier présente WaLi, une attaque de confidentialité qui reconstruit des discours intelligibles à partir des données de capteurs de pression des systèmes HVAC en utilisant un transformateur complexe et des blocs d'attention globale pour surmonter le bruit et la faible résolution, révélant ainsi une nouvelle vulnérabilité de sécurité dans ces infrastructures.

Tarikul Islam Tamiti, Biraj Joshi, Rida Hasan, Anomadarshi Barua2026-03-10💻 cs

SUBARU: A Practical Approach to Power Saving in Hearables Using SUB-Nyquist Audio Resolution Upsampling

Le papier présente SUBARU, une approche pratique qui réduit la consommation énergétique des appareils auditifs en utilisant un sous-échantillonnage et une résolution binaire faible, tout en restaurant la qualité audio via un suréchantillonnage pour le traitement de la parole en temps réel.

Tarikul Islam Tamiti, Sajid Fardin Dipto, Luke Benjamin Baja-Ricketts, David C Vergano, Anomadarshi Barua2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Ce papier propose LD-RPS, une méthode unifiée et sans jeu de données pour la restauration d'images qui exploite l'échantillonnage récursif de l'arrière-plan d'un modèle de diffusion latent préentraîné, enrichi par des priors sémantiques multimodaux, pour surpasser les méthodes actuelles dans la gestion de diverses dégradations sans nécessiter de données appariées.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Cet article propose la méthode QAA (Query-based Adaptive Aggregation), une nouvelle technique d'agrégation de caractéristiques qui utilise des requêtes apprises pour surmonter les biais spécifiques aux ensembles de données et permettre un entraînement conjoint multi-ensembles efficace, améliorant ainsi la généralisation et la performance universelle de la reconnaissance visuelle de lieux.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Cet article propose MCULoRA, une nouvelle approche d'adaptation faible rang dynamique et découplée par modalité qui surpasse les méthodes existantes pour la reconnaissance des émotions en résolvant les conflits de gradients lors de l'apprentissage avec des données multimodales incomplètes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

π3\pi^3: Permutation-Equivariant Visual Geometry Learning

Le papier présente π3\pi^3, un réseau de neurones feed-forward permutation-équivariant qui reconstruit la géométrie visuelle sans dépendre d'une vue de référence fixe, surpassant ainsi les méthodes précédentes en précision et en robustesse pour des tâches telles que l'estimation de pose, la profondeur et la reconstruction de nuages de points.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Cet article propose un cadre d'apprentissage profond basé sur les Vision Transformers (ViT) et utilisant des données Sentinel-2 et Formosat-5 pour affiner la segmentation des zones sinistrées via une approche d'apprentissage faible supervision, améliorant ainsi la fiabilité des produits d'urgence (EVAP) développés par l'agence spatiale taïwanaise (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Auto-scaling Approaches for Microservice Applications: A Survey and Taxonomy

Cet article propose une étude approfondie et une taxonomie des approches d'auto-échellement pour les applications microservices depuis 2018, en analysant leurs mécanismes, leurs objectifs d'optimisation et leurs performances pour garantir l'efficacité des ressources tout en respectant les accords de niveau de service.

Minxian Xu, Junhan Liao, Linfeng Wen, Huaming Wu, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu2026-03-10💻 cs

C-Koordinator: Interference-aware Management for Large-scale and Co-located Microservice Clusters

Cet article présente C-Koordinator, une solution open-source déployée chez Alibaba qui améliore l'efficacité des clusters de microservices à grande échelle en co-localisation grâce à des stratégies de gestion d'interférences basées sur la prédiction précise du CPI, réduisant ainsi la latence des applications de 16,7 % à 36,1 %.

Shengye Song, Minxian Xu, Zuowei Zhang + 5 more2026-03-10💻 cs

They See Me Rolling: High-Speed Event Vision-Based Tactile Roller Sensor for Large Surface Inspection

Cet article présente un nouveau capteur tactile à roulement intégrant une caméra neuromorphique qui permet une inspection 3D rapide et continue de grandes surfaces industrielles avec une précision sub-100 microns, surpassant les méthodes existantes par sa vitesse et sa robustesse au flou de mouvement.

Akram Khairi, Hussain Sajwani, Abdallah Mohammad Alkilany, Laith AbuAssi, Mohamad Halwani, Islam Mohamed Zaid, Ahmed Awadalla, Dewald Swart, Abdulla Ayyad, Yahya Zweiri2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

Cet article présente MIDAR, un modèle de capteur substitut qui enrichit les simulateurs de trafic microscopiques avec une perception LiDAR réaliste et évolutive en utilisant des graphes de visibilité et des transformateurs géométriques, permettant ainsi une évaluation précise des applications de systèmes de transport intelligents sans coût computationnel excessif.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Cette étude présente TransUNet-GradCAM, un modèle hybride combinant Transformers et U-Net qui, grâce à son mécanisme d'attention globale et à ses visualisations explicatives, réalise une segmentation précise et généralisable des ulcères diabétiques du pied sur plusieurs jeux de données cliniques.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S2^2Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

L'article présente S²Q-VDiT, un cadre de quantification post-entraînement pour les transformateurs de diffusion vidéo qui combine une sélection de données saillantes basée sur l'Hessien et une distillation de tokens épars guidée par l'attention pour atteindre des performances sans perte avec une compression et une accélération significatives.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs