Effect of Patch Size on Fine-Tuning Vision Transformers in Two-Dimensional and Three-Dimensional Medical Image Classification

Lo studio dimostra che l'uso di patch di dimensioni ridotte (1, 2 e 4) durante il fine-tuning dei Vision Transformers migliora significativamente le prestazioni nella classificazione di immagini mediche 2D e 3D rispetto alle patch più grandi, con un ulteriore guadagno ottenuto tramite una strategia di ensemble.

Massoud Dehghan, Ramona Woitek, Amirreza Mahbod2026-02-24💻 cs

Systematic Analysis of Coupling Effects on Closed-Loop and Open-Loop Performance in Aerial Continuum Manipulators

Questo studio analizza sistematicamente gli effetti dell'accoppiamento nella modellazione dinamica dei manipolatori continui aerei, dimostrando che, sebbene il modello disaccoppiato presenti significative discrepanze in regime aperto, garantisce in regime chiuso una precisione di tracciamento paragonabile a quella del modello accoppiato con un ridotto costo computazionale.

Niloufar Amiri, Shayan Sepahvand, Iraj Mantegh + 1 more2026-02-24💻 cs

NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures

Il paper propone NeXt2Former-CD, un framework end-to-end che integra encoder ConvNeXt, fusione temporale basata su attenzione deformabile e decoder Mask2Former per ottenere prestazioni di rilevamento dei cambiamenti nel telerilevamento superiori rispetto ai modelli basati su State Space Models, pur mantenendo una latenza di inferenza comparabile.

Yufan Wang, Sokratis Makrogiannis, Chandra Kambhamettu2026-02-24💻 cs

Phase-Consistent Magnetic Spectral Learning for Multi-View Clustering

Questo articolo propone l'Apprendimento Spettrale Magnetico Coerente in Fase, un metodo per il clustering multi-vista che supera le limitazioni delle affinità basate solo sulla magnitudine modellando esplicitamente l'accordo direzionale tra le viste tramite termini di fase complessi per estrarre un segnale spettrale condiviso stabile e guidare l'apprendimento delle rappresentazioni.

Mingdong Lu, Zhikui Chen, Meng Liu + 2 more2026-02-24🤖 cs.LG

Benchmarking Computational Pathology Foundation Models For Semantic Segmentation

Questo studio presenta un benchmark che valuta dieci modelli fondazionali per la segmentazione semantica in patologia computazionale, dimostrando che l'uso di mappe di attenzione combinate con XGBoost senza fine-tuning permette di ottenere prestazioni superiori, in particolare con il modello vision-language CONCH e attraverso l'ensemble di modelli complementari.

Lavish Ramchandani, Aashay Tinaikar, Dev Kumar Das + 2 more2026-02-24💻 cs

Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement

Il paper presenta EditedID, un framework di ripristino facciale senza addestramento che risolve il problema dell'inconsistenza dell'identità nei modelli di editing multimodali attraverso una strategia di allineamento, disaccoppiamento e accoppiamento attentivo, garantendo così la conservazione sia dell'identità originale che degli elementi modificati.

Yuran Dong, Hang Dai, Mang Ye2026-02-24💻 cs