MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

Il documento propone MiM-DiT, un quadro unificato di ripristino delle immagini che integra un'architettura a due livelli di Mixture-of-Experts (MoE) all'interno di un modello di diffusione preaddestrato per gestire in modo adattivo sia i principali tipi di degradazione che le loro variazioni fini-grana, superando così le prestazioni degli approcci attuali.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

Il paper propone HiLoRA, un framework gerarchico di Low-Rank Adaptation per l'apprendimento federato personalizzato che, posizionando adattatori a tre livelli (radice, cluster e foglia) e utilizzando un meccanismo di clustering adattivo basato sulla similarità dei sottospazi, migliora l'apprendimento di rappresentazioni condivise e l'adattamento ai clienti non visti superando i limiti dei metodi LoRA esistenti.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

Il paper presenta UNICORN, un benchmark pubblico e unificato progettato per valutare in modo standardizzato e riproducibile i modelli fondazionali medici attraverso diverse modalità di imaging e compiti, utilizzando un dataset multiculturale e un nuovo punteggio aggregato per facilitare il confronto delle prestazioni.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Questo studio valuta le capacità dei modelli linguistici visivi nel riconoscimento strutturato di edizioni critiche greche antiche, introducendo un nuovo corpus sintetico e un benchmark reale che dimostrano come, nonostante le attuali limitazioni, il modello Qwen3VL-8B raggiunga prestazioni all'avanguardia con un tasso di errore dei caratteri mediano dell'1,0%.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Il paper presenta SemanticDialect, un metodo di quantizzazione mista semantica che ottimizza la generazione video su dispositivi edge riducendo i costi computazionali e preservando la coerenza temporale e semantica attraverso la selezione dinamica di formati per blocco, la decomposizione delle attivazioni e l'assegnazione di dialetti basata sulla correlazione semantica.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs