Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

Cette étude analyse diverses stratégies de fusion et de regroupement dans des modèles d'apprentissage profond pour la classification des zones climatiques locales à partir de données de télédétection multimodales, démontrant que l'approche hybride de base combinée au regroupement des bandes et à la fusion des étiquettes atteint la meilleure précision globale de 76,6 % sur le jeu de données So2Sat LCZ42.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

Cet article propose un cadre de diffusion unifié nommé Dual-LoRA Controllable Diffusion, qui utilise des priorités spatiales légères sous forme de centroïdes de noyaux et des adaptateurs LoRA spécialisés pour réaliser simultanément la complétion de structures locales et la synthèse globale d'images d'histopathologie, surpassant ainsi les méthodes existantes en termes de fidélité structurelle et de réalisme morphologique.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

Ce papier présente le Partial Vision Mamba (PVM), une nouvelle composante architecturale qui adapte les principes des convolutions partielles aux modèles à espace d'état comme Mamba, permettant ainsi de traiter efficacement des données d'entrée comportant des régions invalides arbitraires pour des tâches telles que la complétion de profondeur, l'inpainting d'images et la classification.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

Le papier présente PinPoint, un benchmark complet pour l'analyse d'images composé (CIR) intégrant des réponses multiples, des négatifs explicites et des paraphrases, qui révèle des lacunes significatives dans les méthodes actuelles et propose une méthode de réordonnancement basée sur un MLLM pour les améliorer.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

Spinverse est une méthode de reconstruction microstructurale pour l'IRM de diffusion qui utilise un simulateur de Bloch-Torrey entièrement différentiable pour inverser les mesures en optimisant les perméabilités des faces d'un maillage tétraédrique, permettant ainsi de découvrir des interfaces tissulaires explicites et perméables sans fixer leur topologie à l'avance.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

Cette étude présente une évaluation systématique des méthodes de compression de réseaux de neurones (élagage, quantification et distillation de connaissances) pour la classification d'images hyperspectrales, démontrant qu'elles permettent de réduire significativement la taille et le coût computationnel des modèles tout en maintenant des performances de classification compétitives pour le déploiement sur des plateformes à ressources limitées.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

Bien que les grands modèles multimodaux (MLLM) offrent une nouvelle approche pour la détection d'anomalies vidéo via le raisonnement linguistique, cette étude révèle que leur utilisation en mode zéro-shot sur des benchmarks réels souffre d'un biais conservateur entraînant un effondrement du rappel, bien que des instructions spécifiques puissent significativement améliorer les performances globales.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

Evaluating GPT-5 as a Multimodal Clinical Reasoner: A Landscape Commentary

Bien que la famille de modèles GPT-5 représente une avancée significative vers un raisonnement clinique multimodal intégré en surpassant GPT-4o dans la synthèse textuelle et l'analyse d'images, cette étude démontre qu'elle ne remplace pas encore les systèmes spécialisés dans des tâches de perception critique hautement spécifiques comme la neuroradiologie et la mammographie.

Alexandru Florea, Shansong Wang, Mingzhe Hu + 5 more2026-03-06💻 cs

DSA-SRGS: Super-Resolution Gaussian Splatting for Dynamic Sparse-View DSA Reconstruction

Cet article présente DSA-SRGS, un cadre pionnier de super-résolution par Gaussian Splatting conçu pour reconstruire des modèles 4D de vaisseaux sanguins à haute fidélité à partir de projections DSA dynamiques et peu nombreuses, en intégrant des modules d'apprentissage de texture multi-fidélité et de densification radiative sub-pixel pour surmonter les limitations de résolution et les artefacts des méthodes existantes.

Shiyu Zhang, Zhicong Wu, Huangxuan Zhao + 7 more2026-03-06💻 cs

MADCrowner: Margin Aware Dental Crown Design with Template Deformation and Refinement

Le papier propose MADCrowner, un cadre d'apprentissage automatique novateur qui combine la déformation de modèles 3D guidée par le contexte anatomique et la segmentation précise des marges cervicales pour générer des couronnes dentaires personnalisées avec une précision géométrique et une faisabilité clinique supérieures aux méthodes existantes.

Linda Wei, Chang Liu, Wenran Zhang + 9 more2026-03-06💻 cs

RMK RetinaNet: Rotated Multi-Kernel RetinaNet for Robust Oriented Object Detection in Remote Sensing Imagery

Ce papier propose le RMK RetinaNet, une nouvelle architecture de détection d'objets orientés pour l'imagerie satellitaire qui surpasse les méthodes existantes en surmontant les limitations des champs récepteurs, de la fusion de caractéristiques multi-échelles et de la régression d'angles grâce à des blocs de noyaux multi-échelles, une attention contextuelle directionnelle, un chemin de remontée et un module d'encodage d'angles d'Euler.

Huiran Sun2026-03-06💻 cs

LAW & ORDER: Adaptive Spatial Weighting for Medical Diffusion and Segmentation

Cet article propose « LAW & ORDER », un cadre adaptatif de pondération spatiale combinant un pondérateur d'apprentissage (LAW) pour améliorer la synthèse d'images médicales par diffusion et un détecteur de régions optimisé (ORDER) pour la segmentation efficace, démontrant des performances supérieures sur des lésions de petite taille tout en réduisant considérablement la complexité computationnelle.

Anugunj Naman, Ayushman Singh, Gaibo Zhang + 1 more2026-03-06💻 cs