MOO: A Multi-view Oriented Observations Dataset for Viewpoint Analysis in Cattle Re-Identification

Il paper presenta MOO, un dataset sintetico su larga scala di 1.000 bovini catturati da 128 angolazioni diverse, progettato per analizzare l'impatto delle variazioni di punto di vista sul riconoscimento animale e dimostrare come i priore geometrici sintetici possano migliorare le prestazioni nei compiti di re-identificazione tra vista aerea e terrestre.

William Grolleau, Achraf Chaouch, Astrid Sabourin + 2 more2026-03-05🤖 cs.AI

SPRINT: Semi-supervised Prototypical Representation for Few-Shot Class-Incremental Tabular Learning

Il paper introduce SPRINT, il primo framework di apprendimento incrementale a pochi esempi (FSCIL) progettato specificamente per dati tabulari, che sfrutta l'abbondanza di dati non etichettati e i bassi costi di archiviazione per raggiungere prestazioni all'avanguardia in diversi domini reali senza dimenticare le conoscenze precedenti.

Umid Suleymanov, Murat Kantarcioglu, Kevin S Chan + 6 more2026-03-05🤖 cs.AI

Scalable Evaluation of the Realism of Synthetic Environmental Augmentations in Images

Il paper presenta un framework scalabile per valutare il realismo delle aumentazioni sintetiche di condizioni ambientali (come nebbia, pioggia e notte) nelle immagini, dimostrando che i metodi di intelligenza artificiale generativa superano significativamente gli approcci basati su regole, raggiungendo o superando le prestazioni delle immagini reali per la maggior parte delle condizioni.

Damian J. Ruck, Paul Vautravers, Oliver Chalkley + 1 more2026-03-05🤖 cs.LG

Underrepresented in Foundation Model Pretraining Data? A One-Shot Probe

Questo lavoro propone un metodo efficiente dal punto di vista dei dati che utilizza un modello linguistico per generare descrizioni controfattuali e prevedere con alta accuratezza le prestazioni zero-shot dei modelli fondazione visione-linguaggio su domini sottorappresentati, permettendo così di valutare la necessità di annotazione prima di investire risorse significative.

Chris Vorster, Mayug Maniparambil, Noel E. O'Connor + 2 more2026-03-05💻 cs

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Il paper propone RANGER, un framework per la generazione di referti patologici basato su un decoder con Mixture-of-Experts a gate sparsamente attivato e un modulo di re-ranking adattivo per il recupero delle conoscenze, che supera i limiti degli approcci esistenti migliorando significativamente le metriche di generazione linguistica sul dataset PathText-BRCA.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

Il paper presenta VQA-MHUG, un nuovo dataset di sguardo umano multimodale che dimostra per la prima volta come una maggiore correlazione tra l'attenzione dei modelli neurali e quella umana sul testo sia un predittore significativo delle prestazioni nel Visual Question Answering, suggerendo la necessità di migliorare i meccanismi di attenzione testuale nelle architetture visione-linguaggio.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Questo studio dimostra che i modelli di visione fondazionali, in particolare BiomedCLIP, possono fungere da estrattori di caratteristiche pronti all'uso per il recupero di immagini radiologiche basato sul contenuto, offrendo prestazioni competitive rispetto ai sistemi specializzati su un vasto dataset di 1,6 milioni di immagini senza necessità di addestramento specifico.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs