TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Il paper introduce TRACE, un nuovo modello di recupero multimodale universale che unisce il ragionamento generativo tramite Chain-of-Thought con l'apprendimento rappresentazionale, permettendo di attivare dinamicamente il ragionamento solo per query complesse e ottenendo così prestazioni state-of-the-art e una notevole trasferibilità zero-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Il paper propone ProSMA-UNet, un'architettura di segmentazione medica che riformula l'aggiunta delle connessioni skip come un problema di selezione sparsa delle caratteristiche guidata dal decoder, utilizzando un operatore di prossimità 1\ell_1 per eliminare esplicitamente il rumore e le attivazioni irrilevanti, ottenendo così prestazioni state-of-the-art, specialmente in compiti di segmentazione 3D complessi.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Questo articolo presenta mHC-HSI, un modello di classificazione di immagini iperspettrali basato su Mamba e guidato dal clustering che integra connessioni iper-legate vincolate da varietà per migliorare l'apprendimento delle caratteristiche spaziali e spettrali, la decomposizione in cluster interpretabili e l'uso di conoscenze fisiche delle bande spettrali.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Lo studio dimostra che l'addestramento con ricompense verificabili basate solo sul testo, sebbene aumenti l'accuratezza nei benchmark di VQA medica, comprometta il grounding visivo e favorisca l'uso di scorciatoie, rendendo necessario un nuovo framework di valutazione che includa metriche come il Visual Reliance Score e il tasso di ragionamento visivo allucinato.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Questo studio presenta un nuovo approccio bayesiano basato su Transformer ad alta risoluzione che fonde dati Sentinel-1, RCM e AMSR2 per mappare la concentrazione del ghiaccio marino artico a 200 metri e quantificare l'incertezza, superando le sfide delle etichette imprecise e dell'eterogeneità dei dati grazie a una funzione di perdita supervisionata debole geograficamente ponderata e a un'architettura che integra moduli globali e locali.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

PinCLIP: Large-scale Foundational Multimodal Representation at Pinterest

Il paper presenta PinCLIP, un nuovo approccio di apprendimento delle rappresentazioni multimodali su larga scala sviluppato da Pinterest che, grazie a un'architettura ibrida e a un obiettivo di allineamento dei vicini, supera le soluzioni esistenti migliorando significativamente il recupero dei contenuti, la distribuzione di materiale fresco e le prestazioni pubblicitarie.

Josh Beal, Eric Kim, Jinfeng Rao + 3 more2026-03-05💻 cs

Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery

Questo lavoro propone un nuovo quadro per la stima della profondità monoculare in chirurgia minimamente invasiva che, integrando target di confidenza calibrati, funzioni di perdita consapevoli della confidenza e una testina di stima durante l'inferenza, migliora l'accuratezza e la affidabilità clinica riducendo l'impatto di artefatti come fumo e riflessi.

Muhammad Asad, Emanuele Colleoni, Pritesh Mehta + 7 more2026-03-05💻 cs

From Local Matches to Global Masks: Novel Instance Detection in Open-World Scenes

Il paper presenta L2G-Det, un nuovo framework di rilevamento istanziale che supera i limiti dei metodi basati su proposte sfruttando la corrispondenza densa a livello di patch per generare punti candidati, i quali vengono poi raffinati e utilizzati per guidare un modello SAM potenziato nella segmentazione accurata di oggetti sconosciuti in scenari aperti e affollati.

Qifan Zhang, Sai Haneesh Allu, Jikai Wang + 2 more2026-03-05💻 cs