Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Questo articolo presenta CourtSI, il primo dataset su larga scala e il relativo benchmark per valutare l'intelligenza spaziale dei modelli visione-linguaggio negli sport di rete, dimostrando come l'addestramento su questo nuovo corpus colmi il divario prestazionale tra AI e umani e migliori la capacità di ragionamento spaziale e generazione di commenti.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

Il paper presenta WikiCLIP, un framework contrastivo efficiente che supera i metodi generativi per il riconoscimento di entità visive in dominio aperto, ottenendo prestazioni superiori su benchmark come OVEN e riducendo la latenza di inferenza di circa 100 volte grazie all'uso di embedding di modelli linguistici potenziati da un adattatore guidato dalla visione e da una sintesi di negativi difficili.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Questo lavoro introduce un approccio di potatura dei token per i modelli di recupero a interazione tardiva, fondato sulla geometria iperspaziale e sulla stima delle celle di Voronoi, che riduce l'overhead di archiviazione dell'indice mantenendo la qualità del recupero e offrendo nuove intuizioni sul comportamento dei token.

Yash Kankanampati, Yuxuan Zong, Nadi Tomeh, Benjamin Piwowarksi, Joseph Le Roux2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Questo articolo introduce il concetto di "difficoltà della vetrina intera" (WSD), basato sul disaccordo tra patologi esperti e non esperti, e dimostra che integrare questa metrica nell'addestramento di modelli di Multiple Instance Learning migliora significativamente la precisione nella classificazione del cancro alla prostata, in particolare per i gradi Gleason più elevati.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

Il paper presenta KDMR, un nuovo framework per il ridimensionamento cinematico-dinamico della locomozione umanoide che, formulando il problema come ottimizzazione di traiettoria a contatto multiplo e integrando dati di forza di reazione al suolo, genera movimenti fisicamente coerenti che superano i limiti dei metodi puramente cinematici e migliorano l'addestramento delle politiche di controllo.

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

Il paper presenta ReCoSplat, un modello autoregressivo di Gaussian Splatting che risolve il problema della sintesi di nuove viste online utilizzando un modulo "Render-and-Compare" per compensare gli errori di posa e una strategia di compressione della cache KV per gestire sequenze lunghe, ottenendo prestazioni state-of-the-art su diversi benchmark.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan Yang2026-03-11💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

Il paper presenta TiPToP, un sistema modulare open-source per la pianificazione robotica che combina modelli visivi preaddestrati e un pianificatore Task and Motion (TAMP) per eseguire compiti di manipolazione complessi da immagini e istruzioni linguistiche senza richiedere dati robotici specifici, dimostrando prestazioni competitive rispetto a modelli VLA addestrati su grandi dataset.

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-Pérez2026-03-11💻 cs