RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

Il paper presenta RoboPCA, un framework di apprendimento delle affordance centrato sulla posa che, sfruttando la pipeline Human2Afford per generare annotazioni da dimostrazioni umane, predice congiuntamente regioni di contatto e pose per la manipolazione robotica, superando le limitazioni dei metodi esistenti e dimostrando elevate prestazioni su dati reali e simulati.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

Il paper presenta il Masked Motion Diffusion Model (MMDM), un framework generativo basato su diffusione che, grazie al meccanismo di aggregazione dell'attenzione cinematica (KAA), apprende priors di movimento adattivi al contesto per ricostruire, completare e raffinare dati di movimento 3D incompleti o rumorosi in modo efficiente.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Il paper introduce 3ViewSense, un nuovo framework che colma il divario di intelligenza spaziale nei modelli visione-linguaggio permettendo loro di costruire rappresentazioni mentali 3D coerenti da viste ortografiche attraverso un meccanismo di "simulazione e ragionamento" ispirato alla cognizione ingegneristica.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

Il paper presenta AR2-4FV, un sistema innovativo per il grounding a lungo termine in video a vista fissa che utilizza una "Banca di Ancoraggi" basata sullo sfondo statico e un meccanismo di gating ReID per mantenere la coerenza dell'identità e migliorare significativamente il tasso di ri-cattura e ridurre la latenza quando l'oggetto target è assente o occluso.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

Il paper presenta DECADE, un modello di diffusione non supervisionato e temporalmente coerente che migliora il denoising delle immagini PET cardiache dinamiche con Rb-82, preservando l'accuratezza quantitativa e la qualità delle immagini senza richiedere dati di addestramento accoppiati.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Il paper presenta MedQ-Deg, un benchmark multidimensionale che valuta la robustezza e l'affidabilità dei modelli linguistici multimodali medici di fronte a degradazioni della qualità delle immagini, rivelando che le prestazioni peggiorano sistematicamente con l'aumentare della gravità dei difetti e che i modelli soffrono di un "effetto Dunning-Kruger" mantenendo una fiducia eccessiva nonostante il crollo dell'accuratezza.

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

Il documento presenta GK-FedDKD, un approccio federato che integra la distillazione della conoscenza duale e la conoscenza geometrica globale per superare le sfide dell'eterogeneità dei dati nell'analisi delle immagini satellitari di telerilevamento, ottenendo prestazioni superiori rispetto agli stati dell'arte.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Il paper presenta OrdinalBench, un benchmark diagnostico con 39.000 coppie domanda-risposta e un toolkit di valutazione che rivela come i modelli Vision-Language, nonostante le buone prestazioni generali, mostrino gravi limiti nella generalizzazione del ragionamento sequenziale per l'identificazione di oggetti basata su numeri ordinali elevati e percorsi complessi.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

Il paper propone SGI, un framework compatto ed efficiente che rappresenta immagini ad alta risoluzione decomponendole in spazi locali multi-scala definiti da semi che generano gaussiane neurali strutturate, permettendo una compressione fino a 7,5 volte superiore e una convergenza più rapida rispetto ai metodi precedenti senza compromettere la fedeltà dell'immagine.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

Questo studio descrive l'impiego di trappole fotografiche a basso costo e modelli di visione fondazionale nella riserva naturale di Pu'u Maka'ala alle Hawaii per monitorare la fenologia vegetale e le interazioni flora-fauna a livello individuale, rivelando tendenze temporali fini che i metodi tradizionali non riescono a cogliere.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs