cs.CV articles | Gist.Science

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Cet article propose un cadre novateur pour la segmentation d'objets camouflés en vocabulaire ouvert, qui utilise un modèle de langage-vision partagé pour guider le modèle SAM dans la localisation précise des objets et fournir un contexte spatial complet pour leur classification, surmontant ainsi les limites des approches précédentes.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Ce papier propose LD-RPS, une méthode unifiée et sans jeu de données pour la restauration d'images qui exploite l'échantillonnage récursif de l'arrière-plan d'un modèle de diffusion latent préentraîné, enrichi par des priors sémantiques multimodaux, pour surpasser les méthodes actuelles dans la gestion de diverses dégradations sans nécessiter de données appariées.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

En s'inspirant du développement visuel humain pour créer un « régime alimentaire visuel » évolutif, cette étude démontre que guider la manière dont une IA apprend permet de surmonter ses dépendances aux textures et d'obtenir une vision artificielle plus robuste, basée sur la forme et résistante aux perturbations.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Cet article propose la méthode QAA (Query-based Adaptive Aggregation), une nouvelle technique d'agrégation de caractéristiques qui utilise des requêtes apprises pour surmonter les biais spécifiques aux ensembles de données et permettre un entraînement conjoint multi-ensembles efficace, améliorant ainsi la généralisation et la performance universelle de la reconnaissance visuelle de lieux.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Cet article propose MCULoRA, une nouvelle approche d'adaptation faible rang dynamique et découplée par modalité qui surpasse les méthodes existantes pour la reconnaissance des émotions en résolvant les conflits de gradients lors de l'apprentissage avec des données multimodales incomplètes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

Unified Medical Image Segmentation with State Space Modeling Snake

Ce papier propose Mamba Snake, un cadre innovant de segmentation unifiée d'images médicales qui combine la modélisation par espace d'états et des mécanismes de type « snake » pour surmonter les défis de l'hétérogénéité structurelle et améliorer la précision anatomique.

Ruicheng Zhang, Haowei Guo, Kanghui Tian, Jun Zhou, Mingliang Yan, Zeyu Zhang, Shen Zhao2026-03-10💻 cs

$\pi^3$ : Permutation-Equivariant Visual Geometry Learning

Le papier présente $\pi^3$ , un réseau de neurones feed-forward permutation-équivariant qui reconstruit la géométrie visuelle sans dépendre d'une vue de référence fixe, surpassant ainsi les méthodes précédentes en précision et en robustesse pour des tâches telles que l'estimation de pose, la profondeur et la reconstruction de nuages de points.

Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He2026-03-10💻 cs

InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis

Cet article présente InsightX Agent, un cadre novateur basé sur un modèle multimodal large (LMM) qui orchestre un détecteur de défauts et un outil de réflexion ancrée dans les preuves pour fournir une analyse d'inspection non destructive par rayons X à la fois fiable, interprétable et interactive.

Jiale Liu, Huan Wang, Yue Zhang + 4 more2026-03-10🤖 cs.AI

Post-Disaster Affected Area Segmentation with a Vision Transformer (ViT)-based EVAP Model using Sentinel-2 and Formosat-5 Imagery

Cet article propose un cadre d'apprentissage profond basé sur les Vision Transformers (ViT) et utilisant des données Sentinel-2 et Formosat-5 pour affiner la segmentation des zones sinistrées via une approche d'apprentissage faible supervision, améliorant ainsi la fiabilité des produits d'urgence (EVAP) développés par l'agence spatiale taïwanaise (TASA).

Yi-Shan Chu, Hsuan-Cheng Wei2026-03-10💻 cs

Empowering Microscopic Traffic Simulators with Realistic Perception using Surrogate Sensor Models

Cet article présente MIDAR, un modèle de capteur substitut qui enrichit les simulateurs de trafic microscopiques avec une perception LiDAR réaliste et évolutive en utilisant des graphes de visibilité et des transformateurs géométriques, permettant ainsi une évaluation précise des applications de systèmes de transport intelligents sans coût computationnel excessif.

Tianheng Zhu, Yiheng Feng2026-03-10💻 cs

TransUNet-GradCAM: A Hybrid Transformer-U-Net with Self-Attention and Explainable Visualizations for Foot Ulcer Segmentation

Cette étude présente TransUNet-GradCAM, un modèle hybride combinant Transformers et U-Net qui, grâce à son mécanisme d'attention globale et à ses visualisations explicatives, réalise une segmentation précise et généralisable des ulcères diabétiques du pied sur plusieurs jeux de données cliniques.

Akwasi Asare, Mary Sagoe, Justice Williams Asare, Stephen Edward Moore2026-03-10💻 cs

S $^2$ Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

L'article présente S²Q-VDiT, un cadre de quantification post-entraînement pour les transformateurs de diffusion vidéo qui combine une sélection de données saillantes basée sur l'Hessien et une distillation de tokens épars guidée par l'attention pour atteindre des performances sans perte avec une compression et une accélération significatives.

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu2026-03-10💻 cs

SPEX: A Vision-Language Model for Land Cover Extraction on Spectral Remote Sensing Images

Le papier présente SPEX, un modèle de langage multimodal innovant qui exploite les informations spectrales via un nouvel ensemble de données d'instructions (SPIE) pour réaliser une extraction précise et interprétable des types de couverture terrestre sur des images de télédétection multispectrales, surpassant les méthodes actuelles.

Dongchen Si, Di Wang, Erzhong Gao, Xiaolei Qin, Liu Zhao, Jing Zhang, Minqiang Xu, Jianbo Zhan, Jianshe Wang, Lin Liu, Bo Du, Liangpei Zhang2026-03-10💻 cs

3D Gaussian Splatting with Fisheye Images: Field of View Analysis and Depth-Based Initialization

Cette étude présente la première évaluation du 3D Gaussian Splatting sur des images fisheye à très grand champ de vue, démontrant que l'initialisation par profondeur via UniK3D surpasse les méthodes SfM traditionnelles pour surmonter les défis de distorsion et de reconstruction géométrique.

Ulas Gunes, Matias Turkulainen, Mikhail Silaev, Juho Kannala, Esa Rahtu2026-03-10💻 cs

Unified and Semantically Grounded Domain Adaptation for Medical Image Segmentation

Cet article propose un cadre unifié et sémantiquement ancré pour l'adaptation de domaine en segmentation d'images médicales, qui apprend une variété probabiliste d'anatomies génériques pour permettre une adaptation performante et interprétable sans nécessiter d'alignement explicite entre les domaines source et cible, que ceux-ci soient accessibles ou non.

Xin Wang, Yin Guo, Jiamin Xia, Kaiyu Zhang, Niranjan Balu, Mahmud Mossa-Basha, Linda Shapiro, Chun Yuan2026-03-10💻 cs

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Cet article présente IAG, la première attaque par porte dérobée multi-cibles adaptative pour les modèles de vision-langage, qui génère dynamiquement des déclencheurs invisibles guidés par le texte pour rediriger la localisation d'objets vers des cibles spécifiques sans compromettre les performances sur des échantillons normaux.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Le papier présente Video-EM, un cadre d'apprentissage gratuit basé sur la mémoire épisodique centrée sur les événements qui transforme la compréhension de vidéos longues en une construction et un raffinement d'événements temporellement cohérents pour surmonter les limites des fenêtres contextuelles des modèles de langage vidéo.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Ce papier présente UniUGG, le premier cadre unifié exploitant un LLM et un décodeur spatial basé sur la diffusion latente pour réaliser simultanément la compréhension et la génération de scènes 3D à partir d'images de référence et de transformations de vue, tout en répondant à des questions visuelles spatiales grâce à une stratégie d'apprentissage combinant indices géométriques et sémantiques.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

Le papier présente PhysGM, un cadre feed-forward novateur qui génère en une minute des simulations 4D réalistes à partir d'une seule image en prédisant conjointement des représentations gaussiennes 3D et des propriétés physiques, le tout entraîné sur le nouveau jeu de données PhysAssets et optimisé via DPO pour éviter les méthodes coûteuses.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Cet article propose un cadre d'estimation de pose humaine 3D basé sur la diffusion optimisé par une stratégie d'élagage temporel hiérarchique (HTP) qui réduit considérablement les coûts computationnels tout en maintenant des performances de pointe grâce à une élimination dynamique des tokens de pose redondants.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

← Précédent Suivant →

cs.CV