CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

Il paper presenta CleanStyle, un framework plug-and-play che elimina la fuoriuscita di contenuto nelle immagini generate da modelli di diffusione basati su stile, filtrando le componenti di rumore tramite SVD e introducendo una guida senza classificatore specifica per lo stile (SS-CFG) per migliorare la fedeltà al prompt e la coerenza stilistica senza necessità di riaddestramento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

Communication-Inspired Tokenization for Structured Image Representations

Il paper presenta COMiT, un nuovo framework di tokenizzazione visiva ispirato alla comunicazione umana che, attraverso un processo iterativo e ricorrente di aggiornamento dei token, genera rappresentazioni discrete strutturate e semanticamente coerenti, migliorando significativamente il ragionamento relazionale e la generalizzazione composizionale rispetto ai metodi esistenti.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

Il paper presenta OrthoDiffusion, un modello fondazionale basato sulla diffusione che, grazie al pre-addestramento auto-supervisionato su migliaia di risonanze magnetiche del ginocchio, dimostra un'eccellente capacità di segmentazione e diagnosi multi-task, superando i modelli tradizionali in termini di robustezza, efficienza con dati limitati e trasferibilità ad altre articolazioni come caviglia e spalla.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Questo lavoro propone un approccio di apprendimento federato che utilizza l'aumento dei dati tramite la trasformazione globale non lineare delle intensità (GIN) per superare le sfide della segmentazione di immagini mediche cross-modali, ottenendo prestazioni di generalizzazione superiori senza compromettere la privacy dei dati.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

Real-time Motion Segmentation with Event-based Normal Flow

Questo lavoro propone un framework per la segmentazione del movimento in tempo reale basato su telecamere a eventi, che utilizza il flusso normale come rappresentazione intermedia per formulare il problema come minimizzazione di energia risolta tramite tagli del grafo, ottenendo un'accuratezza elevata e un'accelerazione computazionale di circa 800 volte rispetto agli stati dell'arte esistenti.

Sheng Zhong, Zhongyang Ren, Xiya Zhu + 3 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

Il paper presenta VGGDrive, una nuova architettura che potenzia i modelli visione-linguaggio per la guida autonoma integrando, tramite un modulo plug-and-play chiamato CVGE, le capacità di grounding geometrico 3D cross-view di modelli fondazione maturi, migliorando significativamente le prestazioni su diversi benchmark di guida autonoma.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs

RU4D-SLAM: Reweighting Uncertainty in Gaussian Splatting SLAM for 4D Scene Reconstruction

Il paper propone RU4D-SLAM, un framework robusto ed efficiente che integra fattori temporali, rendering di motion blur e un meccanismo di riponderazione semantica dell'incertezza per migliorare il tracciamento e la ricostruzione di scene 4D dinamiche, superando le prestazioni degli approcci esistenti in ambienti con oggetti in movimento e input di bassa qualità.

Yangfan Zhao, Hanwei Zhang, Ke Huang + 3 more2026-02-25💻 cs

FLIM Networks with Bag of Feature Points

Questo studio introduce FLIM-BoFP, un metodo di stima dei filtri più rapido ed efficiente rispetto all'approccio precedente FLIM-Cluster, che permette di addestrare reti neurali per la rilevazione di oggetti salienti senza retropropagazione utilizzando solo marcatori utente, dimostrando efficacia nella rilevazione di parassiti in immagini di microscopia ottica.

João Deltregia Martinelli, Marcelo Luis Rodrigues Filho, Felipe Crispim da Rocha Salvagnini + 3 more2026-02-25💻 cs

SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models

Il paper introduce SpatiaLQA, un benchmark composto da oltre 9.600 coppie di domande e risposte su 241 scene reali per valutare il ragionamento logico-spaziale nei modelli visione-linguaggio, dimostrando le attuali limitazioni dei modelli più avanzati e proponendo un nuovo metodo di ragionamento assistito da grafi di scena ricorsivi per superare tali sfide.

Yuechen Xie, Xiaoyan Zhang, Yicheng Shan + 6 more2026-02-25🤖 cs.LG

LST-SLAM: A Stereo Thermal SLAM System for Kilometer-Scale Dynamic Environments

Il paper presenta LST-SLAM, un innovativo sistema di localizzazione e mappatura simultanea (SLAM) stereo termico progettato per ambienti dinamici su larga scala, che combina apprendimento auto-supervisionato delle caratteristiche termiche, tracciamento del movimento a doppio livello e vincoli ibridi semantico-geometrici per ottenere prestazioni robuste e precise in condizioni di illuminazione e meteo avverse.

Zeyu Jiang, Kuan Xu, Changhao Chen2026-02-25💻 cs