cs.CV articles | Gist.Science

Point-based Instance Completion with Scene Constraints

Cet article présente un nouveau modèle de complétion d'instances par nuage de points qui intègre des contraintes de scène via un mécanisme d'attention croisée pour améliorer la qualité et la plausibilité des reconstructions, et introduit le jeu de données ScanWCF pour évaluer cette tâche dans des scènes intérieures.

Wesley Khademi, Li Fuxin2026-03-10💻 cs

LEL: Lipschitz Continuity Constrained Ensemble Learning for Efficient EEG-Based Intra-subject Emotion Recognition

Cet article présente LEL, un cadre d'apprentissage d'ensemble contraint par la continuité de Lipschitz qui améliore la stabilité, la précision et la robustesse de la reconnaissance des émotions à partir de signaux EEG intra-sujets en combinant des mécanismes d'attention basés sur les Transformers avec une stratégie de fusion optimisée, validée par des résultats supérieurs sur trois jeux de données publics.

Shengyu Gong, Yueyang Li, Zijian Kang, Bo Chai, Weiming Zeng, Hongjie Yan, Zhiguo Zhang, Wai Ting Siok, Nizhuan Wang2026-03-10💻 cs

Task-Oriented Semantic Compression for Localization at the Network Edge

Ce papier propose un cadre de communication orienté tâche, baptisé O-VIB, qui utilise un encodeur à goulot d'information variationnel avec contrainte orthogonale et détermination automatique de la pertinence pour compresser efficacement les caractéristiques multi-vues et permettre une localisation visuelle précise sur des plateformes mobiles aux ressources limitées dans des environnements urbains.

Zhengru Fang, Senkang Hu, Yu Guo, Yiqin Deng, Yuguang Fang2026-03-10💻 cs

DeepSparse: A Foundation Model for Sparse-View CBCT Reconstruction

Ce papier présente DeepSparse, un modèle fondation innovant pour la reconstruction CBCT à vues éparses, qui intègre une architecture DiCE et une stratégie de préentraînement HyViP pour surmonter les limites des méthodes existantes en matière de qualité d'image, de généralisation et de coût computationnel, permettant ainsi une imagerie médicale plus sûre et efficace.

Yiqun Lin, Jixiang Chen, Hualiang Wang, Jiewen Yang, Jiarong Guo, Yi Zhang, Xiaomeng Li2026-03-10💻 cs

M3CAD: Towards Generic Cooperative Autonomous Driving Benchmark

Ce papier présente M³CAD, un benchmark complet et multimodal de 30 000 images conçu pour faire progresser la recherche sur la conduite autonome coopérative générique, en évaluant des tâches multiples et en proposant une nouvelle approche de fusion adaptative pour optimiser l'équilibre entre efficacité de communication et précision de perception.

Morui Zhu, Yongqi Zhu, Yihao Zhu, Qi Chen, Deyuan Qu, Song Fu, Qing Yang2026-03-10💻 cs

FoldNet: Learning Generalizable Closed-Loop Policy for Garment Folding via Keypoint-Driven Asset and Demonstration Synthesis

Ce papier présente FoldNet, une approche qui génère un jeu de données synthétique basé sur des points clés et des textures réalistes pour entraîner, via l'apprentissage par imitation en boucle fermée et la méthode KG-DAgger, une politique de pliage de vêtements généralisable et robuste atteignant un taux de réussite de 75 % dans le monde réel.

Yuxing Chen, Bowen Xiao, He Wang2026-03-10💻 cs

MTVCraft: Tokenizing 4D Motion for Arbitrary Character Animation

Le papier présente MTVCraft, un cadre pionnier qui tokenise directement les séquences de mouvement 3D en tokens 4D pour animer des personnages à partir d'images, surpassant les méthodes existantes basées sur des poses 2D grâce à une meilleure généralisation zéro-shot et un contrôle plus flexible.

Yanbo Ding, Xirui Hu, Zhizhi Guo, Yan Zhang, Xinrui Wang, Zhixiang He, Chi Zhang, Yali Wang, Xuelong Li2026-03-10💻 cs

Deep Unrolled Meta-Learning for Multi-Coil and Multi-Modality MRI with Adaptive Optimization

Cet article propose un cadre unifié d'apprentissage méta profond et déroulé qui améliore la reconstruction et la synthèse d'IRM multi-bobines et multi-modalités en adaptant rapidement un algorithme d'optimisation convergent à divers schémas d'échantillonnage et combinaisons de modalités.

Merham Fouladvand, Peuroly Batra2026-03-10🔢 math

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Ce papier présente EgoDex, le plus grand ensemble de données à ce jour pour la manipulation dextre, constitué de 829 heures de vidéos egocentriques annotées avec des poses 3D des mains collectées via Apple Vision Pro, afin de pallier le manque de données à grande échelle et de faire progresser l'apprentissage par imitation en robotique.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

Vid2World: Crafting Video Diffusion Models to Interactive World Models

Le papier présente Vid2World, une méthode générale qui transforme des modèles de diffusion vidéo pré-entraînés en modèles de monde interactifs en adaptant leur architecture pour la génération autoregressive et en intégrant un mécanisme de guidage causal pour améliorer le contrôle par les actions.

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long2026-03-10🤖 cs.LG

Generative Prior-Guided Neural Interface Reconstruction for 3D Electrical Impedance Tomography

Cet article présente une nouvelle approche « solveur dans la boucle » qui couple un prior génératif 3D pré-entraîné avec un solveur rigoureux d'équations intégrales de frontière pour reconstruire avec précision des interfaces 3D complexes en tomographie par impédance électrique, en imposant les lois physiques comme contraintes strictes tout en régularisant le problème inverse via un espace latent géométrique appris.

Haibo Liu, Junqing Chen, Guang Lin2026-03-10🔢 math

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Le papier présente ViTaPEs, une architecture transformer innovante qui améliore l'alignement cross-modal et la généralisation zéro-shot en intégrant un schéma d'encodage positionnel à deux étapes (local et global) pour fusionner efficacement les perceptions visuelle et tactile.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Cet article propose une approche d'apprentissage semi-autosupervisé nommée GLMask, qui transforme la segmentation sémantique en segmentation d'instances avec un minimum d'annotation manuelle, atteignant des performances de pointe à la fois pour la détection d'épis de blé en agriculture et sur le jeu de données généraliste COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Transforming H&E images into IHC: A Variance-Penalized GAN for Precision Oncology

Cette étude propose un cadre d'apprentissage profond basé sur un GAN pénalisé par la variance pour générer des images d'immunohistochimie (IHC) de haute fidélité à partir de coupes histologiques H&E, permettant ainsi une évaluation précise et rentable de l'expression de HER2 dans le cancer du sein.

Sara Rehmat, Hafeez Ur Rehman, Byeong-Gwon Kang, Sarra Ayouni, Yunyoung Nam2026-03-10💻 cs

Light of Normals: Unified Feature Representation for Universal Photometric Stereo

Ce papier présente LINO UniPS, une méthode de stéréophotométrie universelle qui utilise des jetons d'enregistrement lumineux et une attention entrelacée pour découpler l'éclairage des normales, ainsi qu'une architecture à double branche basée sur les ondelettes pour préserver les détails géométriques, le tout entraîné sur le nouveau jeu de données PS-Verse pour atteindre des performances de pointe.

Houyuan Chen, Hong Li, Chongjie Ye + 11 more2026-03-10💻 cs

Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models

Cet article propose un cadre novateur pour la segmentation d'objets camouflés en vocabulaire ouvert, qui utilise un modèle de langage-vision partagé pour guider le modèle SAM dans la localisation précise des objets et fournir un contexte spatial complet pour leur classification, surmontant ainsi les limites des approches précédentes.

Kai Zhao, Wubang Yuan, Zheng Wang, Guanyi Li, Xiaoqiang Zhu, Deng-ping Fan, Dan Zeng2026-03-10💻 cs

LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling

Ce papier propose LD-RPS, une méthode unifiée et sans jeu de données pour la restauration d'images qui exploite l'échantillonnage récursif de l'arrière-plan d'un modèle de diffusion latent préentraîné, enrichi par des priors sémantiques multimodaux, pour surpasser les méthodes actuelles dans la gestion de diverses dégradations sans nécessiter de données appariées.

Huaqiu Li, Yong Wang, Tongwen Huang, Hailang Huang, Haoqian Wang, Xiangxiang Chu2026-03-10💻 cs

Adopting a human developmental visual diet yields robust, shape-based AI vision

En s'inspirant du développement visuel humain pour créer un « régime alimentaire visuel » évolutif, cette étude démontre que guider la manière dont une IA apprend permet de surmonter ses dépendances aux textures et d'obtenir une vision artificielle plus robuste, basée sur la forme et résistante aux perturbations.

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG

Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition

Cet article propose la méthode QAA (Query-based Adaptive Aggregation), une nouvelle technique d'agrégation de caractéristiques qui utilise des requêtes apprises pour surmonter les biais spécifiques aux ensembles de données et permettre un entraînement conjoint multi-ensembles efficace, améliorant ainsi la généralisation et la performance universelle de la reconnaissance visuelle de lieux.

Jiuhong Xiao, Yang Zhou, Giuseppe Loianno2026-03-10💻 cs

A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition

Cet article propose MCULoRA, une nouvelle approche d'adaptation faible rang dynamique et découplée par modalité qui surpasse les méthodes existantes pour la reconnaissance des émotions en résolvant les conflits de gradients lors de l'apprentissage avec des données multimodales incomplètes.

Xinkui Zhao, Jinsong Shu, Yangyang Wu, Guanjie Cheng, Zihe Liu, Naibo Wang, Shuiguang Deng, Zhongle Xie, Jianwei Yin2026-03-10💻 cs

← Précédent Suivant →