Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

L'article propose FlowAdapt, un cadre d'adaptation de domaine efficace en paramètres pour la perception collaborative V2X, qui utilise la théorie du transport optimal et un échantillonnage glouton de Wasserstein pour surmonter les limitations des méthodes PEFT existantes en réduisant la redondance des données et en préservant les sémantiques fines.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Le papier présente 3DMedAgent, un agent unifié qui permet aux modèles de langage multimodaux 2D d'analyser des données médicales 3D complexes via une décomposition progressive des tâches et une mémoire structurée, surpassant ainsi les méthodes existantes sur plus de 40 tâches d'imagerie thoracique.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Le papier présente OVerSeeC, un cadre modulaire zéro-shot qui génère des cartes de coût globales pour la planification autonome à partir d'images satellites et de directives en langage naturel, en décomposant le processus en interprétation, localisation et synthèse pour s'adapter à des missions variées et à des entités inconnues.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Cet article introduit le nouveau cadre de la généralisation de domaine à vocabulaire ouvert pour la segmentation sémantique urbaine, accompagné d'un benchmark dédié et d'une méthode innovante nommée S2-Corr, qui améliore la robustesse des modèles face aux changements de domaine et aux catégories inédites en affinant les corrélations texte-image.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Cet article présente un cadre de décomposition d'images en couches basé sur l'apprentissage contextuel et l'adaptation LoRA de modèles de diffusion, qui utilise une stratégie d'ajustement cyclique et un processus d'amélioration progressive pour séparer efficacement des éléments complexes comme les logos de leurs arrière-plans tout en préservant la cohérence visuelle.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Le papier présente WISER, un cadre d'extraction d'images composées sans entraînement qui améliore la recherche zéro-shot en unifiant les approches texte-vers-image et image-vers-image via un pipeline d'exploration élargie, de fusion adaptative et de réflexion itérative pour surmonter les limites des méthodes existantes.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Le papier présente PackUV, une nouvelle méthode de représentation 4D qui convertit les attributs gaussiens en cartes UV structurées pour une compatibilité native avec les codecs vidéo standards, permettant ainsi un stockage compact et un streaming efficace de vidéos volumétriques de longue durée grâce à la méthode d'ajustement PackUV-GS et au nouveau jeu de données PackUV-2B.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Ce papier présente l'Infinite Self-Attention (InfSA), une reformulation spectrale de l'attention qui modélise les interactions entre jetons comme une diffusion sur un graphe, et propose sa variante linéaire (Linear-InfSA) permettant aux Transformers de vision de traiter des images de très haute résolution avec une efficacité computationnelle et énergétique accrue tout en surpassant les architectures basées sur le softmax.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Le papier présente DeAR, un cadre d'adaptation fine-granularité pour les modèles vision-langage qui décompose les rôles des têtes d'attention pour isoler les connaissances de généralisation des tâches spécifiques, permettant ainsi d'équilibrer efficacement l'adaptation aux tâches et la préservation des capacités zéro-shot.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs