VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

Il paper presenta VQA-MHUG, un nuovo dataset di sguardo umano multimodale che dimostra per la prima volta come una maggiore correlazione tra l'attenzione dei modelli neurali e quella umana sul testo sia un predittore significativo delle prestazioni nel Visual Question Answering, suggerendo la necessità di migliorare i meccanismi di attenzione testuale nelle architetture visione-linguaggio.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Questo studio dimostra che i modelli di visione fondazionali, in particolare BiomedCLIP, possono fungere da estrattori di caratteristiche pronti all'uso per il recupero di immagini radiologiche basato sul contenuto, offrendo prestazioni competitive rispetto ai sistemi specializzati su un vasto dataset di 1,6 milioni di immagini senza necessità di addestramento specifico.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Questo lavoro presenta un approccio completamente non supervisionato basato sulla coerenza ciclica e sull'ottimizzazione bayesiana per l'annotazione sematica delle cellule in immagini microscopiche 3D di *C. elegans*, permettendo la creazione del primo atlante non supervisionato dell'organismo e superando le limitazioni dei metodi supervisionati attuali.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs