Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection

Il paper presenta SIFormer, un modello transformer che migliora la rilevazione 3D di oggetti combinando radar 4D e telecamere attraverso un meccanismo di attivazione incrociata che integra le informazioni istanziali 2D nello spazio BEV, superando così le limitazioni delle fusioni esistenti e ottenendo prestazioni state-of-the-art su diversi dataset.

Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao + 6 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

Il paper presenta SurgAtt-Tracker, un framework innovativo che traccia l'attenzione chirurgica generando mappe di calore dense attraverso un riordinamento temporale delle proposte e un affinamento consapevole del movimento, supportato dal nuovo benchmark SurgAtt-1.16M per garantire una guida precisa del campo visivo durante la chirurgia minimamente invasiva.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Questo studio dimostra la fattibilità dell'uso di modelli visione-linguaggio su video RGB per stimare in modo non invasivo le distanze orizzontali e verticali delle mani durante i sollevamenti manuali, ottenendo errori medi ridotti (6-8 cm) grazie a pipeline che integrano la segmentazione e la regressione temporale.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

Il paper presenta CleanStyle, un framework plug-and-play che elimina la fuoriuscita di contenuto nelle immagini generate da modelli di diffusione basati su stile, filtrando le componenti di rumore tramite SVD e introducendo una guida senza classificatore specifica per lo stile (SS-CFG) per migliorare la fedeltà al prompt e la coerenza stilistica senza necessità di riaddestramento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

Communication-Inspired Tokenization for Structured Image Representations

Il paper presenta COMiT, un nuovo framework di tokenizzazione visiva ispirato alla comunicazione umana che, attraverso un processo iterativo e ricorrente di aggiornamento dei token, genera rappresentazioni discrete strutturate e semanticamente coerenti, migliorando significativamente il ragionamento relazionale e la generalizzazione composizionale rispetto ai metodi esistenti.

Aram Davtyan, Yusuf Sahin, Yasaman Haghighi + 4 more2026-02-25🤖 cs.AI

OrthoDiffusion: A Generalizable Multi-Task Diffusion Foundation Model for Musculoskeletal MRI Interpretation

Il paper presenta OrthoDiffusion, un modello fondazionale basato sulla diffusione che, grazie al pre-addestramento auto-supervisionato su migliaia di risonanze magnetiche del ginocchio, dimostra un'eccellente capacità di segmentazione e diagnosi multi-task, superando i modelli tradizionali in termini di robustezza, efficienza con dati limitati e trasferibilità ad altre articolazioni come caviglia e spalla.

Tian Lan, Lei Xu, Zimu Yuan + 8 more2026-02-25🤖 cs.AI

Federated Learning for Cross-Modality Medical Image Segmentation via Augmentation-Driven Generalization

Questo lavoro propone un approccio di apprendimento federato che utilizza l'aumento dei dati tramite la trasformazione globale non lineare delle intensità (GIN) per superare le sfide della segmentazione di immagini mediche cross-modali, ottenendo prestazioni di generalizzazione superiori senza compromettere la privacy dei dati.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25💻 cs

Real-time Motion Segmentation with Event-based Normal Flow

Questo lavoro propone un framework per la segmentazione del movimento in tempo reale basato su telecamere a eventi, che utilizza il flusso normale come rappresentazione intermedia per formulare il problema come minimizzazione di energia risolta tramite tagli del grafo, ottenendo un'accuratezza elevata e un'accelerazione computazionale di circa 800 volte rispetto agli stati dell'arte esistenti.

Sheng Zhong, Zhongyang Ren, Xiya Zhu + 3 more2026-02-25💻 cs

VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving

Il paper presenta VGGDrive, una nuova architettura che potenzia i modelli visione-linguaggio per la guida autonoma integrando, tramite un modulo plug-and-play chiamato CVGE, le capacità di grounding geometrico 3D cross-view di modelli fondazione maturi, migliorando significativamente le prestazioni su diversi benchmark di guida autonoma.

Jie Wang, Guang Li, Zhijian Huang + 4 more2026-02-25💻 cs