Toward Early Quality Assessment of Text-to-Image Diffusion Models

Ce travail propose Probe-Select, un module plug-in qui évalue la qualité des images dès les premières étapes de la génération par diffusion ou matching de flux en exploitant les activations intermédiaires, permettant ainsi d'arrêter précocement les échantillons peu prometteurs et de réduire les coûts de calcul de plus de 60 % tout en améliorant la qualité finale.

Huanlei Guo, Hongxin Wei, Bingyi Jing2026-03-05🤖 cs.LG

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Le papier présente TRACE, une méthode innovante qui unifie le raisonnement génératif et l'apprentissage de représentations discriminatives pour la recherche multimodale universelle, permettant au modèle d'activer dynamiquement un processus de réflexion structuré pour les requêtes complexes tout en maintenant une efficacité optimale et une forte transférabilité zéro-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Le papier présente ProSMA-UNet, une architecture de segmentation médicale qui reformule la sélection des connexions de saut comme un problème de sélection de caractéristiques parcimonieuse conditionnée par le décodeur, utilisant un opérateur de seuillage proximal pour éliminer explicitement le bruit et améliorer significativement les performances sur des tâches d'imagerie clinique difficiles.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Cet article présente mHC-HSI, un modèle de classification d'images hyperspectrales basé sur Mamba et guidé par le clustering, qui améliore l'apprentissage des caractéristiques spatio-spectrales et l'interprétabilité grâce à une connexion hyper-hybride contrainte par la variété et à une intégration de connaissances physiques spectrales.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Cette étude propose une approche novatrice de Transformer bayésien à haute résolution, combinant des modules locaux et globaux, une fonction de perte faiblement supervisée pondérée géographiquement et une fusion de données multi-sources (Sentinel-1, RCM, AMSR2) pour produire des cartes de concentration de la glace de mer à l'échelle pan-arctique à 200 mètres avec une estimation fiable des incertitudes.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Ce papier présente PinCLIP, une approche d'apprentissage de représentations visuelles multimodales à grande échelle développée par Pinterest qui, grâce à une architecture hybride novatrice et un objectif d'alignement de voisinage, améliore significativement la récupération et le classement du contenu tout en résolvant le problème du démarrage à froid, comme le démontrent des gains substantiels lors de tests en ligne.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

Ce papier présente L2G-Det, un cadre de détection d'instances novateur qui, en évitant les propositions d'objets explicites et en exploitant une correspondance dense de patchs locaux pour alimenter un modèle SAM augmenté, permet une segmentation robuste d'objets spécifiques dans des scènes ouvertes encombrées à partir de quelques images modèles.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs