cs.CV articoli | Gist.Science

RAM: Recover Any 3D Human Motion in-the-Wild

Il paper presenta RAM, un sistema innovativo che combina un tracciatore semantico sensibile al movimento, un modulo HMR temporale potenziato da memoria e un predittore di pose future per ottenere una ricostruzione robusta e coerente del movimento umano 3D in scenari reali complessi, superando lo stato dell'arte in termini di stabilità di tracciamento e accuratezza.

Sen Jia, Ning Zhu, Jinqin Zhong, Jiale Zhou, Huaping Zhang, Jenq-Neng Hwang, Lei Li2026-03-23🤖 cs.AI

LIORNet: Self-Supervised LiDAR Snow Removal Framework for Autonomous Driving under Adverse Weather Conditions

Il paper presenta LIORNet, un framework di rimozione della neve auto-supervisionato basato su LiDAR che integra principi fisici e statistici per migliorare la percezione 3D in condizioni meteorologiche avverse senza richiedere annotazioni manuali.

Ji-il Park, Inwook Shim2026-03-23💻 cs

Timestep-Aware Block Masking for Efficient Diffusion Model Inference

Il paper propone un framework innovativo che ottimizza l'inferenza dei modelli di diffusione apprendendo maschere specifiche per ogni timestep per riutilizzare dinamicamente le caratteristiche e bypassare i blocchi ridondanti, garantendo così un significativo miglioramento dell'efficienza computazionale senza compromettere la qualità generativa.

Haodong He, Yuan Gao, Weizhong Zhang, Gui-Song Xia2026-03-23💻 cs

HiPath: Hierarchical Vision-Language Alignment for Structured Pathology Report Prediction

Il paper presenta HiPath, un framework leggero di visione-linguaggio che, sfruttando backbones congelati e moduli addestrabili specifici, supera gli approcci esistenti nella generazione di rapporti di patologia strutturati e multi-granulari, ottenendo elevate prestazioni di accuratezza e sicurezza su un vasto dataset clinico reale.

Ruicheng Yuan, Zhenxuan Zhang, Anbang Wang, Liwei Hu, Xiangqian Hua, Yaya Peng, Jiawei Luo, Guang Yang2026-03-23🤖 cs.AI

X-World: Controllable Ego-Centric Multi-Camera World Models for Scalable End-to-End Driving

Il paper presenta X-World, un modello generativo del mondo basato su video multi-camera controllabile da azioni e prompt testuali, progettato per simulare scenari di guida realistici e coerenti al fine di abilitare valutazioni scalabili e riproducibili per i sistemi di guida autonoma end-to-end.

Chaoda Zheng, Sean Li, Jinhao Deng, Zhennan Wang, Shijia Chen, Liqiang Xiao, Ziheng Chi, Hongbin Lin, Kangjie Chen, Boyang Wang, Yu Zhang, Xianming Liu2026-03-23🤖 cs.AI

MedSPOT: A Workflow-Aware Sequential Grounding Benchmark for Clinical GUI

Il paper introduce MedSPOT, un nuovo benchmark che valuta la capacità dei modelli linguistici multimodali di eseguire il grounding visivo sequenziale e consapevole dei flussi di lavoro all'interno di interfacce grafiche cliniche complesse, superando i limiti delle valutazioni tradizionali basate su singoli passaggi.

Rozain Shakeel, Abdul Rahman Mohammad Ali, Muneeb Mushtaq, Tausifa Jan Saleem, Tajamul Ashraf2026-03-23💻 cs

Evaluating Test-Time Adaptation For Facial Expression Recognition Under Natural Cross-Dataset Distribution Shifts

Questo studio presenta la prima valutazione dei metodi di adattamento al tempo di test (TTA) per il riconoscimento delle espressioni facciali sotto spostamenti di distribuzione naturali, dimostrando che l'efficacia dell'adattamento dipende dalla distanza distribuzionale e dalla gravità dello spostamento, con diversi approcci che eccellono a seconda della pulizia o del rumore del dominio target.

John Turnbull, Shivam Grover, Amin Jalali, Ali Etemad2026-03-23⚡ eess

NEC-Diff: Noise-Robust Event-RAW Complementary Diffusion for Seeing Motion in Extreme Darkness

Il paper presenta NEC-Diff, un nuovo framework di imaging ibrido basato su diffusione che combina immagini RAW e eventi per ricostruire scene dinamiche in condizioni di luce estremamente scarsa, superando le limitazioni del rumore e della perdita di texture grazie a vincoli fisici e fusione adattiva delle caratteristiche, supportato dal nuovo dataset REAL.

Haoyue Liu, Jinghan Xu, Luxin Feng, Hanyu Zhou, Haozhi Zhao, Yi Chang, Luxin Yan2026-03-23💻 cs

CFCML: A Coarse-to-Fine Crossmodal Learning Framework For Disease Diagnosis Using Multimodal Images and Tabular Data

Il documento presenta CFCML, un nuovo framework di apprendimento crossmodale a fasi grossolane e fini che riduce il divario tra immagini mediche e dati tabulari per migliorare la diagnosi delle malattie, ottenendo risultati superiori rispetto agli stati dell'arte sui dataset MEN e Derm7pt.

Tianling Liu, Hongying Liu, Fanhua Shang, Lequan Yu, Tong Han, Liang Wan2026-03-23💻 cs

Detached Skip-Links and $R$ -Probe: Decoupling Feature Aggregation from Gradient Propagation for MLLM OCR

Il paper propone Detached Skip-Links e $R$ -Probe per migliorare le prestazioni OCR dei modelli multimodali su larga scala disaccoppiando l'aggregazione delle caratteristiche dalla propagazione del gradiente, riducendo così le interferenze che destabilizzano l'addestramento e preservando i dettagli visivi fini.

Ziye Yuan, Ruchang Yao, Chengxin Zheng, Yusheng Zhao, Daxiang Dong, Ming Zhang2026-03-23🤖 cs.AI

← Precedente Successivo →

cs.CV