VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

Il paper presenta VisionCreator, un modello agenziale nativo per la generazione visiva che unifica comprensione, pensiero, pianificazione e creazione attraverso un framework end-to-end addestrato con dati sintetici di alta qualità e tecniche di specializzazione progressiva, dimostrando prestazioni superiori rispetto a modelli proprietari più grandi.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

Il documento propone MiM-DiT, un quadro unificato di ripristino delle immagini che integra un'architettura a due livelli di Mixture-of-Experts (MoE) all'interno di un modello di diffusione preaddestrato per gestire in modo adattivo sia i principali tipi di degradazione che le loro variazioni fini-grana, superando così le prestazioni degli approcci attuali.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

Il paper propone HiLoRA, un framework gerarchico di Low-Rank Adaptation per l'apprendimento federato personalizzato che, posizionando adattatori a tre livelli (radice, cluster e foglia) e utilizzando un meccanismo di clustering adattivo basato sulla similarità dei sottospazi, migliora l'apprendimento di rappresentazioni condivise e l'adattamento ai clienti non visti superando i limiti dei metodi LoRA esistenti.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

Il paper presenta UNICORN, un benchmark pubblico e unificato progettato per valutare in modo standardizzato e riproducibile i modelli fondazionali medici attraverso diverse modalità di imaging e compiti, utilizzando un dataset multiculturale e un nuovo punteggio aggregato per facilitare il confronto delle prestazioni.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Questo studio valuta le capacità dei modelli linguistici visivi nel riconoscimento strutturato di edizioni critiche greche antiche, introducendo un nuovo corpus sintetico e un benchmark reale che dimostrano come, nonostante le attuali limitazioni, il modello Qwen3VL-8B raggiunga prestazioni all'avanguardia con un tasso di errore dei caratteri mediano dell'1,0%.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs