CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

Il paper presenta CanoVerse, un vasto dataset canonico di 320.000 oggetti 3D e un nuovo framework di canonizzazione ad alta efficienza che risolve l'ambiguità rotazionale per migliorare la generazione 3D, il recupero di forme e la stima dell'orientamento.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Il paper presenta LiveWorld, un nuovo framework che risolve il problema della dinamica "fuori vista" nei modelli di mondo video generativi introducendo uno stato globale persistente e un meccanismo di monitoraggio che permette agli oggetti di evolvere anche quando non sono osservati, garantendo così una coerenza temporale e spaziale a lungo termine.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs

Class Visualizations and Activation Atlases for Enhancing Interpretability in Deep Learning-Based Computational Pathology

Questo studio valuta l'efficacia delle visualizzazioni di classe e delle mappe di attivazione per migliorare l'interpretabilità dei modelli transformer nella patologia computazionale, rivelando che tali tecniche riflettono fedelmente la complessità intrinseca dei tessuti e delle sottoclassi tumorali, sebbene l'accordo tra esperti diminuisca con l'aumentare della granularità delle etichette.

Marco Gustav, Fabian Wolf, Christina Glasner, Nic G. Reitsam, Stefan Schulz, Kira Aschenbroich, Bruno Märkl, Sebastian Foersch, Jakob Nikolas Kather2026-03-10💻 cs

VINO: Video-driven Invariance for Non-contextual Objects via Structural Prior Guided De-contextualization

Il paper presenta VINO, un framework di apprendimento auto-supervisionato che, sfruttando un collo di bottiglia strutturale e una distillazione asimmetrica su video densi, disaccoppia efficacemente gli oggetti dallo sfondo per ottenere rappresentazioni robuste e incentrate sulla forma, superando le prestazioni dei metodi precedenti.

Seul-Ki Yeom, Marcel Simon, Eunbin Lee, Tae-Ho Kim2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Il paper presenta FabricGen, un framework end-to-end che genera tessuti intrecciati realistici a partire da descrizioni testuali decomponendo il processo nella sintesi di texture macroscopiche tramite modelli di diffusione e di geometrie microscopiche dei fili controllate da un modello linguistico specializzato (WeavingLLM) per rispettare le regole dell'intreccio.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Il paper propone LEPA, un'architettura predittiva che risolve le discrepanze geometriche nei modelli fondazionali geospaziali apprendendo l'equivarianza per prevedere direttamente le embedding trasformate, superando l'affidabilità dell'interpolazione standard e migliorando significativamente le metriche di recupero.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

Il paper presenta le Variational Flow Maps, un framework che risolve il problema della generazione condizionata in un singolo passo per i modelli di flusso, trasformando la condizione da una guida del percorso di campionamento all'apprendimento di un adattatore di rumore iniziale che garantisce la coerenza con le osservazioni e le distribuzioni dei dati.

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

MAviS: A Multimodal Conversational Assistant For Avian Species

Il paper presenta MAviS, un assistente conversazionale multimodale specializzato in specie aviarie che, grazie al nuovo dataset MAviS-Dataset e al benchmark MAviS-Bench, supera le prestazioni degli attuali modelli open-source nel riconoscimento, nella descrizione e nel ragionamento su uccelli integrando audio, visione e testo.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs