GarmentPainter: Efficient 3D Garment Texture Synthesis with Character-Guided Diffusion Model

Le papier présente GarmentPainter, un cadre efficace qui génère des textures de vêtements 3D de haute qualité et cohérentes dans l'espace UV en utilisant un modèle de diffusion guidé par la position UV et une image de référence de personnage, sans nécessiter d'alignement spatial strict ni modifier l'architecture UNet sous-jacente.

Jinbo Wu, Xiaobo Gao, Xing Liu, Chen Zhao, Jialun Liu2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Cette étude propose une analyse approfondie de l'utilisation de l'imagerie ultra-grand champ couplée à des méthodes d'apprentissage profond, notamment les transformers et les modèles de fondation, pour améliorer la détection de la rétinopathie diabétique et de l'œdème maculaire diabétique tout en assurant une meilleure robustesse et interprétabilité des modèles.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Le papier présente DynamicVGGT, un cadre unifié de reconstruction 4D qui étend VGGT pour modéliser le mouvement des points dans des scènes dynamiques de conduite autonome grâce à une attention temporelle consciente du mouvement et une tête de splatting gaussien 3D dynamique, surpassant ainsi les méthodes existantes en précision de reconstruction.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs

OSCAR: Occupancy-based Shape Completion via Acoustic Neural Implicit Representations

Le papier propose OSCAR, une méthode de complétion de forme basée sur l'occupation et les représentations implicites neuronales acoustiques, qui permet de reconstruire avec précision la géométrie 3D complète de la colonne vertébrale à partir d'observations ultrasonores partielles sans nécessiter d'étiquettes anatomiques lors de l'inférence.

Magdalena Wysocki, Kadir Burak Buldu, Miruna-Alexandra Gafencu, Mohammad Farid Azampour, Nassir Navab2026-03-10💻 cs

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Cet article propose une méthode de génération d'images CT à partir de texte qui améliore la fidélité anatomique et la cohérence clinique en récupérant des cas cliniques pertinents via un encodeur vision-langage 3D pour guider un modèle de diffusion latent, comblant ainsi le fossé entre le contrôle sémantique et la plausibilité anatomique.

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

HDR-NSFF: High Dynamic Range Neural Scene Flow Fields

Le papier présente HDR-NSFF, une méthode innovante qui reconstruit des champs de radiance haute dynamique (HDR) à partir de vidéos monoculaires à expositions alternées en modélisant la scène de manière spatio-temporelle continue via des champs de radiance neuronaux ou des splats gaussiens 4D, surpassant ainsi les méthodes traditionnelles 2D pour éliminer les artefacts et assurer une cohérence temporelle dans les scènes dynamiques.

Shin Dong-Yeon, Kim Jun-Seong, Kwon Byung-Ki, Tae-Hyun Oh2026-03-10💻 cs

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Ce papier présente SlowBA, une nouvelle attaque par porte dérobée qui cible l'efficacité des agents d'interface graphique basés sur des modèles vision-langage en induisant des chaînes de raisonnement excessivement longues via des déclencheurs discrets, augmentant ainsi considérablement la latence de réponse tout en préservant la précision des tâches.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

Cette étude comparative à grande échelle révèle que, contrairement aux modèles d'IA qui dégradent leurs performances de manière progressive en s'appuyant sur des caractéristiques contextuelles, les humains reconnaissent les actions égo-centriques grâce à des indices sémantiques critiques et subissent un effondrement brutal de leur précision lorsque ces indices sont supprimés.

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

Beyond Attention Heatmaps: How to Get Better Explanations for Multiple Instance Learning Models in Histopathology

Cet article propose un cadre général pour évaluer la fiabilité des cartes de chaleur en apprentissage multiple-instance en histopathologie, démontrant que des méthodes comme LRP et IG surpassent les cartes d'attention et permettent ainsi une validation plus robuste des modèles et la découverte de nouveaux biomarqueurs biologiques.

Mina Jamshidi Idaji, Julius Hense, Tom Neuhäuser, Augustin Krause, Yanqing Luo, Oliver Eberle, Thomas Schnake, Laure Ciernik, Farnoush Rezaei Jafari, Reza Vahidimajd, Jonas Dippel, Christoph Walz, Frederick Klauschen, Andreas Mock, Klaus-Robert Müller2026-03-10🤖 cs.LG

Δ\DeltaVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Le papier présente Δ\DeltaVLA, un cadre d'action vision-langage guidé par des connaissances antérieures qui améliore la manipulation robotique en modélisant les variations du monde plutôt que les états futurs absolus, grâce à des modules d'extraction de priorités, de quantification des variations latentes et d'attention conditionnelle.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs