cs.CV articles | Gist.Science

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

PhysDrape est une méthode hybride combinant un réseau de neurones graphiques et un solveur physique différentiable à deux étapes pour réaliser un drapé de vêtements réaliste en résolvant explicitement les forces et en garantissant l'absence de pénétration par des contraintes géométriques strictes.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

L'article propose FlowAdapt, un cadre d'adaptation de domaine efficace en paramètres pour la perception collaborative V2X, qui utilise la théorie du transport optimal et un échantillonnage glouton de Wasserstein pour surmonter les limitations des méthodes PEFT existantes en réduisant la redondance des données et en préservant les sémantiques fines.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Ce papier propose SToRM, un cadre novateur de réduction supervisée de tokens pour les modèles de langage multimodaux, qui permet d'accélérer considérablement la conduite autonome de bout en bout tout en préservant les performances grâce à une sélection intelligente des tokens visuels.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Le papier présente 3DMedAgent, un agent unifié qui permet aux modèles de langage multimodaux 2D d'analyser des données médicales 3D complexes via une décomposition progressive des tâches et une mémoire structurée, surpassant ainsi les méthodes existantes sur plus de 40 tâches d'imagerie thoracique.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Cet article démontre que les architectures apprenant des opérateurs équivariants dans un espace latent peuvent améliorer la reconnaissance d'objets face à des transformations symétriques inédites sur des données MNIST, tout en soulignant les défis restants pour leur passage à l'échelle sur des ensembles de données plus complexes.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Le papier présente OVerSeeC, un cadre modulaire zéro-shot qui génère des cartes de coût globales pour la planification autonome à partir d'images satellites et de directives en langage naturel, en décomposant le processus en interprétation, localisation et synthèse pour s'adapter à des missions variées et à des entités inconnues.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Cet article introduit le nouveau cadre de la généralisation de domaine à vocabulaire ouvert pour la segmentation sémantique urbaine, accompagné d'un benchmark dédié et d'une méthode innovante nommée S2-Corr, qui améliore la robustesse des modèles face aux changements de domaine et aux catégories inédites en affinant les corrélations texte-image.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

Le papier présente UniMatch, un cadre novateur utilisant des modèles de langage multimodaux pour établir des correspondances sémantiques denses entre des formes 3D non isométriques de catégories variées grâce à une approche en deux étapes, allant d'une segmentation sémantique grossière à un apprentissage fin guidé par le langage.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

L'article propose InfScene-SR, une méthode de super-résolution d'images basée sur les modèles de diffusion qui permet de traiter des images de taille arbitraire sans artefacts de bordure grâce à une fusion itérative de patches corrigée par variance, rendant ainsi possible un inférence parallèle efficace sur des scènes gigapixels.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Cet article propose une méthode de décomposition et de recomposition en ligne des objets, des scènes et des poses de caméra pour générer des données d'entraînement diversifiées et améliorer l'efficacité de la détection 3D d'objets monoculaire, même avec des annotations limitées.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Cet article présente un cadre de décomposition d'images en couches basé sur l'apprentissage contextuel et l'adaptation LoRA de modèles de diffusion, qui utilise une stratégie d'ajustement cyclique et un processus d'amélioration progressive pour séparer efficacement des éléments complexes comme les logos de leurs arrière-plans tout en préservant la cohérence visuelle.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Cet article présente un cadre d'inférence itératif et sans entraînement, nommé « See It, Say It, Sorted », qui atténue les hallucinations visuelles dans les modèles de langage-vision en supervisant chaque étape du raisonnement par des preuves visuelles dynamiquement extraites de l'image.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Cette article présente une approche unifiée de la segmentation sémantique pour les images et les vidéos qui transforme les masques en séquences de tokens discrets via un codage par longueurs de course (RLE) et un modèle de langage autorégressif, tout en intégrant des stratégies de compression et des informations d'instances pour la segmentation panoptique.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Le papier présente WISER, un cadre d'extraction d'images composées sans entraînement qui améliore la recherche zéro-shot en unifiant les approches texte-vers-image et image-vers-image via un pipeline d'exploration élargie, de fusion adaptative et de réflexion itérative pour surmonter les limites des méthodes existantes.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Le papier présente PackUV, une nouvelle méthode de représentation 4D qui convertit les attributs gaussiens en cartes UV structurées pour une compatibilité native avec les codecs vidéo standards, permettant ainsi un stockage compact et un streaming efficace de vidéos volumétriques de longue durée grâce à la méthode d'ajustement PackUV-GS et au nouveau jeu de données PackUV-2B.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Ce papier présente HART, une méthode d'apprentissage par renforcement sans annotation qui permet aux modèles multimodaux de grande taille de raisonner efficacement sur des images haute résolution en identifiant et en vérifiant automatiquement les régions clés.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Ce papier présente l'Infinite Self-Attention (InfSA), une reformulation spectrale de l'attention qui modélise les interactions entre jetons comme une diffusion sur un graphe, et propose sa variante linéaire (Linear-InfSA) permettant aux Transformers de vision de traiter des images de très haute résolution avec une efficacité computationnelle et énergétique accrue tout en surpassant les architectures basées sur le softmax.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

Le papier présente WildActor, un cadre de génération vidéo humain qui préserve l'identité corporelle sous des angles et des mouvements variés grâce à un nouveau jeu de données à grande échelle (Actor-18M) et à des mécanismes d'attention asymétrique combinés à un échantillonnage adaptatif.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Ce papier de position soutient que l'évaluation des systèmes de traitement visuel doit évoluer d'une approche centrée sur des métriques objectives vers une approche humanocentrée, contextuelle et nuancée, afin de mieux refléter la perception humaine et de ne pas entraver l'innovation.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Le papier présente DeAR, un cadre d'adaptation fine-granularité pour les modèles vision-langage qui décompose les rôles des têtes d'attention pour isoler les connaissances de généralisation des tâches spécifiques, permettant ainsi d'équilibrer efficacement l'adaptation aux tâches et la préservation des capacités zéro-shot.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

← Précédent Suivant →