RAM: Recover Any 3D Human Motion in-the-Wild

Il paper presenta RAM, un sistema innovativo che combina un tracciatore semantico sensibile al movimento, un modulo HMR temporale potenziato da memoria e un predittore di pose future per ottenere una ricostruzione robusta e coerente del movimento umano 3D in scenari reali complessi, superando lo stato dell'arte in termini di stabilità di tracciamento e accuratezza.

Sen Jia, Ning Zhu, Jinqin Zhong, Jiale Zhou, Huaping Zhang, Jenq-Neng Hwang, Lei Li2026-03-23🤖 cs.AI

HiPath: Hierarchical Vision-Language Alignment for Structured Pathology Report Prediction

Il paper presenta HiPath, un framework leggero di visione-linguaggio che, sfruttando backbones congelati e moduli addestrabili specifici, supera gli approcci esistenti nella generazione di rapporti di patologia strutturati e multi-granulari, ottenendo elevate prestazioni di accuratezza e sicurezza su un vasto dataset clinico reale.

Ruicheng Yuan, Zhenxuan Zhang, Anbang Wang, Liwei Hu, Xiangqian Hua, Yaya Peng, Jiawei Luo, Guang Yang2026-03-23🤖 cs.AI

X-World: Controllable Ego-Centric Multi-Camera World Models for Scalable End-to-End Driving

Il paper presenta X-World, un modello generativo del mondo basato su video multi-camera controllabile da azioni e prompt testuali, progettato per simulare scenari di guida realistici e coerenti al fine di abilitare valutazioni scalabili e riproducibili per i sistemi di guida autonoma end-to-end.

Chaoda Zheng, Sean Li, Jinhao Deng, Zhennan Wang, Shijia Chen, Liqiang Xiao, Ziheng Chi, Hongbin Lin, Kangjie Chen, Boyang Wang, Yu Zhang, Xianming Liu2026-03-23🤖 cs.AI

MedSPOT: A Workflow-Aware Sequential Grounding Benchmark for Clinical GUI

Il paper introduce MedSPOT, un nuovo benchmark che valuta la capacità dei modelli linguistici multimodali di eseguire il grounding visivo sequenziale e consapevole dei flussi di lavoro all'interno di interfacce grafiche cliniche complesse, superando i limiti delle valutazioni tradizionali basate su singoli passaggi.

Rozain Shakeel, Abdul Rahman Mohammad Ali, Muneeb Mushtaq, Tausifa Jan Saleem, Tajamul Ashraf2026-03-23💻 cs

Evaluating Test-Time Adaptation For Facial Expression Recognition Under Natural Cross-Dataset Distribution Shifts

Questo studio presenta la prima valutazione dei metodi di adattamento al tempo di test (TTA) per il riconoscimento delle espressioni facciali sotto spostamenti di distribuzione naturali, dimostrando che l'efficacia dell'adattamento dipende dalla distanza distribuzionale e dalla gravità dello spostamento, con diversi approcci che eccellono a seconda della pulizia o del rumore del dominio target.

John Turnbull, Shivam Grover, Amin Jalali, Ali Etemad2026-03-23⚡ eess

NEC-Diff: Noise-Robust Event-RAW Complementary Diffusion for Seeing Motion in Extreme Darkness

Il paper presenta NEC-Diff, un nuovo framework di imaging ibrido basato su diffusione che combina immagini RAW e eventi per ricostruire scene dinamiche in condizioni di luce estremamente scarsa, superando le limitazioni del rumore e della perdita di texture grazie a vincoli fisici e fusione adattiva delle caratteristiche, supportato dal nuovo dataset REAL.

Haoyue Liu, Jinghan Xu, Luxin Feng, Hanyu Zhou, Haozhi Zhao, Yi Chang, Luxin Yan2026-03-23💻 cs

Detached Skip-Links and RR-Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR

Il paper propone Detached Skip-Links e RR-Probe per migliorare le prestazioni OCR dei modelli multimodali su larga scala disaccoppiando l'aggregazione delle caratteristiche dalla propagazione del gradiente, riducendo così le interferenze che destabilizzano l'addestramento e preservando i dettagli visivi fini.

Ziye Yuan, Ruchang Yao, Chengxin Zheng, Yusheng Zhao, Daxiang Dong, Ming Zhang2026-03-23🤖 cs.AI