Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Ce papier propose la Redistribution du Crédit Spatial (SCR), une méthode d'inférence sans entraînement qui atténue les hallucinations des modèles vision-langage en rééquilibrant les activations des patches visuels pour restaurer le contexte spatial supprimé, améliorant ainsi la fiabilité sans sacrifier la qualité de génération ni la latence.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

Cet article propose une amélioration du cadre MambaBDA pour l'évaluation des dommages aux bâtiments par imagerie satellite, intégrant une perte focale, des portes d'attention et un module d'alignement pour surmonter les déséquilibres de classes et les décalages de domaine, ce qui se traduit par des gains de performance significatifs, notamment dans des scénarios de catastrophes non vus.

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

Toward Early Quality Assessment of Text-to-Image Diffusion Models

Ce travail propose Probe-Select, un module plug-in qui évalue la qualité des images dès les premières étapes de la génération par diffusion ou matching de flux en exploitant les activations intermédiaires, permettant ainsi d'arrêter précocement les échantillons peu prometteurs et de réduire les coûts de calcul de plus de 60 % tout en améliorant la qualité finale.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Le papier présente TRACE, une méthode innovante qui unifie le raisonnement génératif et l'apprentissage de représentations discriminatives pour la recherche multimodale universelle, permettant au modèle d'activer dynamiquement un processus de réflexion structuré pour les requêtes complexes tout en maintenant une efficacité optimale et une forte transférabilité zéro-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Le papier présente ProSMA-UNet, une architecture de segmentation médicale qui reformule la sélection des connexions de saut comme un problème de sélection de caractéristiques parcimonieuse conditionnée par le décodeur, utilisant un opérateur de seuillage proximal pour éliminer explicitement le bruit et améliorer significativement les performances sur des tâches d'imagerie clinique difficiles.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Cet article présente mHC-HSI, un modèle de classification d'images hyperspectrales basé sur Mamba et guidé par le clustering, qui améliore l'apprentissage des caractéristiques spatio-spectrales et l'interprétabilité grâce à une connexion hyper-hybride contrainte par la variété et à une intégration de connaissances physiques spectrales.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Cette étude propose une approche novatrice de Transformer bayésien à haute résolution, combinant des modules locaux et globaux, une fonction de perte faiblement supervisée pondérée géographiquement et une fusion de données multi-sources (Sentinel-1, RCM, AMSR2) pour produire des cartes de concentration de la glace de mer à l'échelle pan-arctique à 200 mètres avec une estimation fiable des incertitudes.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG