Towards Multimodal Domain Generalization with Few Labels

Il paper introduce un nuovo problema di generalizzazione di dominio multimodale semi-supervisionata (SSMDG) e propone un quadro unificato che combina regolarizzazione basata sul consenso, gestione delle discrepanze e allineamento dei prototipi cross-modali per apprendere modelli robusti con pochi dati etichettati, superando i limiti degli approcci esistenti e stabilendo nuovi benchmark.

Hongzhao Li, Hao Dong, Hualei Wan + 3 more2026-02-27💻 cs

OSDaR-AR: Enhancing Railway Perception Datasets via Multi-modal Augmented Reality

Questo articolo presenta OSDaR-AR, un nuovo dataset pubblico creato integrando oggetti virtuali fotorealistici in sequenze ferroviarie reali tramite un framework di realtà aumentata multi-modale basato su Unreal Engine 5, al fine di colmare il divario tra simulazione e realtà e migliorare l'addestramento dei sistemi di percezione ferroviaria.

Federico Nesti, Gianluca D'Amico, Mauro Marinoni + 1 more2026-02-27💻 cs

Velocity and stroke rate reconstruction of canoe sprint team boats based on panned and zoomed video recordings

Questo studio presenta un framework automatizzato basato su video che, utilizzando tecniche di deep learning come YOLOv8 e U-net, ricostruisce con alta precisione velocità e frequenza di remata di canoe da sprint di varie configurazioni, offrendo un'alternativa affidabile al GPS per l'analisi delle prestazioni senza necessità di sensori a bordo.

Julian Ziegler, Daniel Matthes, Finn Gerdts + 5 more2026-02-27💻 cs

MM-NeuroOnco: A Multimodal Benchmark and Instruction Dataset for MRI-Based Brain Tumor Diagnosis

Il paper introduce MM-NeuroOnco, un ampio dataset multimodale e un benchmark per l'addestramento e la valutazione di modelli di intelligenza artificiale nel diagnosticare tumori cerebrali tramite risonanza magnetica, dimostrando come l'uso di istruzioni semantiche arricchite e un processo di controllo qualità automatizzato permettano di sviluppare sistemi (come NeuroOnco-GPT) in grado di fornire ragionamenti diagnostici clinicamente interpretabili con prestazioni significativamente superiori rispetto agli attuali modelli di base.

Feng Guo, Jiaxiang Liu, Yang Li + 2 more2026-02-27🤖 cs.AI

Can Agents Distinguish Visually Hard-to-Separate Diseases in a Zero-Shot Setting? A Pilot Study

Questo studio pilota valuta le prestazioni zero-shot di agenti multimodali nel distinguere malattie clinicamente distinte ma visivamente simili, dimostrando che un nuovo framework di adjudicazione contrastiva migliora l'accuratezza diagnostica e riduce le affermazioni non supportate, sebbene le prestazioni complessive non siano ancora sufficienti per il deploy clinico.

Zihao Zhao, Frederik Hauke, Juliana De Castilhos + 2 more2026-02-27💻 cs

An automatic counting algorithm for the quantification and uncertainty analysis of the number of microglial cells trainable in small and heterogeneous datasets

Questo lavoro presenta un algoritmo automatico basato su un contatore a kernel non parametrico e non lineare per la quantificazione e l'analisi dell'incertezza del numero di cellule microgliali, progettato per essere addestrato efficacemente su piccoli e eterogenei dataset senza richiedere la rilevazione individuale delle cellule.

L. Martino, M. M. Garcia, P. S. Paradas + 1 more2026-02-27⚡ eess

Small Object Detection Model with Spatial Laplacian Pyramid Attention and Multi-Scale Features Enhancement in Aerial Images

Questo articolo propone un modello di rilevamento di piccoli oggetti nelle immagini aeree che integra un modulo di attenzione a piramide di Laplace spaziale, un potenziamento delle caratteristiche multi-scala e convoluzioni deformabili per allineare le feature, ottenendo risultati superiori rispetto agli algoritmi originali sui dataset VisDrone e DOTA.

Zhangjian Ji, Huijia Yan, Shaotong Qiao + 2 more2026-02-27💻 cs