Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Il paper propone un framework di apprendimento attivo guidato dall'interpretabilità che, integrando l'allineamento spaziale delle mappe di attenzione con le regioni di interesse definite dagli esperti, seleziona campioni di dati medici in modo più efficiente rispetto al campionamento casuale, migliorando sia le prestazioni predittive che la rilevanza clinica delle immagini.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

Il paper presenta CARE, un modello fondazionale per l'analisi delle immagini istopatologiche che, grazie a un preaddestramento su larga scala e a una guida molecolare adattiva, supera i limiti dei modelli esistenti nell'identificare regioni di interesse coerenti, ottenendo prestazioni superiori su numerosi compiti downstream con una frazione dei dati di addestramento solitamente necessari.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Il paper propone LFG, un framework di pre-addestramento senza etichette che apprende rappresentazioni unificate per la guida autonoma da video non annotati e senza pose, utilizzando segnali multi-modali per prevedere mappe di punti, pose e segmentazione, ottenendo prestazioni superiori nelle attività di pianificazione e previsione del movimento.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Il paper propone AlignVAR, un nuovo framework di autoregressione visiva per la super-risoluzione delle immagini che risolve i problemi di coerenza globale e accumulo di errori attraverso la regressione autoregressiva con coerenza spaziale e vincoli di coerenza gerarchica, ottenendo risultati strutturalmente superiori con un'inferenza 10 volte più veloce e un numero di parametri ridotto rispetto ai metodi basati su diffusione.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Il paper presenta SOLACE, un framework di post-addestramento per la generazione di immagini da testo che utilizza un segnale intrinseco di auto-convinzione, derivato dalla capacità del modello di recuperare il rumore iniettato, per ottimizzare le prestazioni in modo completamente non supervisionato e migliorare l'allineamento testo-immagine senza necessità di dati esterni o reward model.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Il paper presenta Dr. Occ, un framework di previsione dell'occupazione 3D per la guida autonoma che combina un trasformatore guidato dalla profondità per allineamento geometrico preciso e un trasformatore guidato dalle regioni basato su esperti misti per gestire le variazioni semantiche spaziali, ottenendo risultati superiori rispetto allo stato dell'arte sul benchmark Occ3D-nuScenes.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs