Automatic Map Density Selection for Locally-Performant Visual Place Recognition

Questo articolo propone un approccio dinamico per la mappatura nel riconoscimento visivo dei luoghi che seleziona automaticamente la densità della mappa necessaria per garantire che un livello specifico di richiamo locale sia soddisfatto per una percentuale definita dell'ambiente operativo, superando i limiti delle densità di campionamento fisse e globali tipicamente utilizzate.

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Il paper propone SCR (Spatial Credit Redistribution), un metodo di inferenza senza addestramento che riduce le allucinazioni nei modelli visione-linguaggio redistribuendo l'attenzione spaziale dai patch dominanti ai contesti circostanti, ottenendo significativi miglioramenti nella precisione su diversi benchmark senza compromettere la qualità della generazione o la latenza.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval

Il paper introduce TRACE, un nuovo modello di recupero multimodale universale che unisce il ragionamento generativo tramite Chain-of-Thought con l'apprendimento rappresentazionale, permettendo di attivare dinamicamente il ragionamento solo per query complesse e ottenendo così prestazioni state-of-the-art e una notevole trasferibilità zero-shot.

Xiangzhao Hao, Shijie Wang, Tianyu Yang + 3 more2026-03-05💻 cs

ProSMA-UNet: Decoder Conditioning for Proximal-Sparse Skip Feature Selection

Il paper propone ProSMA-UNet, un'architettura di segmentazione medica che riformula l'aggiunta delle connessioni skip come un problema di selezione sparsa delle caratteristiche guidata dal decoder, utilizzando un operatore di prossimità 1\ell_1 per eliminare esplicitamente il rumore e le attivazioni irrilevanti, ottenendo così prestazioni state-of-the-art, specialmente in compiti di segmentazione 3D complessi.

Chun-Wun Cheng, Yanqi Cheng, Peiyuan Jing + 4 more2026-03-05💻 cs

mHC-HSI: Clustering-Guided Hyper-Connection Mamba for Hyperspectral Image Classification

Questo articolo presenta mHC-HSI, un modello di classificazione di immagini iperspettrali basato su Mamba e guidato dal clustering che integra connessioni iper-legate vincolate da varietà per migliorare l'apprendimento delle caratteristiche spaziali e spettrali, la decomposizione in cluster interpretabili e l'uso di conoscenze fisiche delle bande spettrali.

Yimin Zhu, Zack Dewis, Quinn Ledingham + 6 more2026-03-05💻 cs

Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning

Lo studio dimostra che l'addestramento con ricompense verificabili basate solo sul testo, sebbene aumenti l'accuratezza nei benchmark di VQA medica, comprometta il grounding visivo e favorisca l'uso di scorciatoie, rendendo necessario un nuovo framework di valutazione che includa metriche come il Visual Reliance Score e il tasso di ragionamento visivo allucinato.

Anas Zafar, Leema Krishna Murali, Ashish Vashist2026-03-05💻 cs