A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Questo lavoro presenta il primo quadro automatizzato di auditing multimodale per la scoperta sistematica e la spiegazione dei fallimenti nei classificatori di immagini mediche, dimostrando attraverso il dataset MIMIC-CXR-JPG che l'integrazione di informazioni multimodali migliora significativamente l'identificazione e la comprensione degli errori rispetto ai metodi unimodali tradizionali.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Il paper presenta UMPIRE, un framework di quantificazione dell'incertezza senza addestramento per i modelli linguistici multimodali che calcola il volume semantico incoerente delle risposte utilizzando esclusivamente le caratteristiche interne del modello, superando così i limiti delle metriche esistenti e dimostrando prestazioni superiori nella rilevazione degli errori e nella calibrazione dell'incertezza su diversi compiti e modalità.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Il paper presenta SenCache, un metodo di caching sensibile alla sensibilità che accelera l'inferenza dei modelli di diffusione per la generazione video analizzando la sensibilità dell'output del modello alle perturbazioni, consentendo una selezione dinamica e adattiva dei passi di caching che supera i metodi basati su euristiche mantenendo una qualità visiva superiore.

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Questo lavoro presenta un nuovo metodo che migliora la comprensione spaziale nei modelli di generazione di immagini attraverso la costruzione di un dataset di preferenze e di un modello di ricompensa specializzato, il quale abilita l'apprendimento per rinforzo online e supera le prestazioni dei modelli proprietari esistenti nella valutazione delle relazioni spaziali.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

Il paper presenta GTASR, un metodo di super-risoluzione delle immagini in tempo reale basato su Consistency Models che, attraverso strategie di allineamento della traiettoria e rettifica strutturale duale, risolve i problemi di deriva di coerenza e disaccoppiamento geometrico permettendo una generazione di alta qualità in un singolo passo con costi computazionali ridotti.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Questo lavoro propone un nuovo framework che supera i limiti dell'object detection a vocabolario aperto identificando e apprendendo incrementalmente oggetti sconosciuti in scenari open world, grazie alle tecniche OWEL e MSCAL che migliorano le prestazioni nei benchmark di guida autonoma mantenendo la capacità di rilevamento open vocabulary.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI