K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

Il paper presenta K-MaT, un framework di apprendimento dei prompt che utilizza il trasporto ottimo di Fused Gromov-Wasserstein per ancorare le conoscenze cliniche e trasferire le strutture decisionali dai modelli VLM biomedici ad alta risoluzione a quelli a bassa risoluzione senza necessità di immagini di addestramento, ottenendo risultati all'avanguardia in compiti di imaging medico cross-modale.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Il paper introduce il Dynamic Chunking Diffusion Transformer (DC-DiT), un modello che migliora l'efficienza computazionale e la qualità della generazione delle immagini adattando dinamicamente il numero di token in base alla complessità visiva e allo stadio di denoising, ottenendo risultati superiori rispetto ai DiT tradizionali con un costo di addestramento ridotto.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

Il documento presenta CHMv2, una mappa globale ad alta risoluzione della altezza della chioma forestale derivata da immagini ottiche satellitari e addestrata su modelli DINOv3, che offre una precisione significativamente superiore rispetto ai prodotti esistenti nella quantificazione del carbonio forestale e nel monitoraggio della struttura dell'habitat.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

Questo lavoro propone un framework di addestramento "prompt-group-aware" che, organizzando prompt semanticamente equivalenti in gruppi e applicando regolarizzazione e vincoli di coerenza, migliora la robustezza e la generalizzazione della segmentazione guidata da testo dei nuclei cellulari senza modificare l'architettura o l'inferenza dei modelli fondazione.

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

Questo articolo propone un framework di risoluzione di puzzle guidato dall'uomo che combina un solver automatico con l'interazione umana per ricostruire in modo efficiente e accurato frammenti di beni culturali reali su larga scala, superando le limitazioni dei metodi puramente automatici di fronte a erosione e ambiguità.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Il paper presenta CLoPA, una strategia di adattamento continuo che ottimizza una piccola frazione dei parametri del modello nnInteractive su dati annotati in tempo reale, elevando rapidamente le prestazioni della segmentazione interattiva a livelli esperti su diverse attività mediche senza richiedere modifiche al flusso di lavoro o nuovi parametri.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

Il paper introduce WanderDream, il primo dataset su larga scala che permette agli agenti di simulare mentalmente percorsi esplorativi per rispondere a domande di ragionamento situato senza dover esplorare fisicamente l'ambiente, superando così i vincoli di sicurezza e le limitazioni fisiche.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Il paper presenta Pinterest Canvas, un sistema di generazione di immagini su larga scala che combina un modello di diffusione fondazionale addestrato su dati multimodali con varianti specializzate ottenute tramite fine-tuning rapido, dimostrando attraverso studi di caso e test A/B risultati superiori rispetto ai modelli di terze parti per compiti come il miglioramento dello sfondo e l'outpainting, con un significativo aumento del coinvolgimento degli utenti.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

Training Flow Matching: The Role of Weighting and Parameterization

Questo studio analizza sistematicamente l'impatto della ponderazione della perdita e della parametrizzazione dell'output sui modelli di flow matching, esaminando come queste scelte interagiscano con la dimensionalità intrinseca dei dati, l'architettura del modello e la dimensione del dataset per fornire indicazioni pratiche sulle scelte di progettazione.

Anne Gagneux, Ségolène Martin, Rémi Gribonval, Mathurin Massias2026-03-09💻 cs