Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

本文提出了首个面向体育场景的大规模空间智能数据集 CourtSI 及其基准测试 CourtSI-Bench,通过利用球场几何结构构建百万级问答数据,揭示了现有视觉语言模型在体育空间推理上的局限性,并验证了基于该数据微调模型可显著提升其在空间理解与评论生成方面的性能。

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

该论文提出了一种基于关节角运动图像与 Token-Patch 晚期交互的可解释细粒度文本 - 动作检索方法,通过将局部关节特征映射为伪图像并结合掩码语言模型正则化,克服了现有全局嵌入方法在细粒度对应和可解释性上的不足,在 HumanML3D 和 KIT-ML 数据集上实现了超越最先进水平的检索性能。

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

该论文提出了一种基于专家与非专家病理学家诊断分歧的“全切片难度”(WSD)概念,并通过多任务学习和加权分类损失两种方法将其融入前列腺癌 Gleason 分级任务中,实验结果表明该方法能显著提升不同特征编码器和多实例学习模型的性能,尤其改善了对高 Gleason 分级(即更严重病情)的分类效果。

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro Gori2026-03-11💻 cs

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization

本文提出了名为 KDMR 的框架,通过将人形机器人运动重定向建模为多接触全身轨迹优化问题,并显式结合刚体动力学与地面反作用力数据,有效解决了传统纯运动学方法导致的物理不一致性问题,从而生成了动力学可行且平滑的参考轨迹,显著提升了下游模仿学习策略的训练效率与 locomotion 稳定性。

Xiaoyu Zhang, Steven Haener, Varun Madabushi, Maegan Tucker2026-03-11💻 cs

TiPToP: A Modular Open-Vocabulary Planning System for Robotic Manipulation

本文提出了 TiPToP,一种结合预训练视觉基础模型与任务运动规划器(TAMP)的模块化开放词汇系统,仅需 RGB 图像和自然语言指令即可在零机器人数据的情况下解决多步操作任务,并在仿真与真实世界中展现出优于基于 350 小时演示微调的 VLA 模型的性能。

William Shen, Nishanth Kumar, Sahit Chintalapudi, Jie Wang, Christopher Watson, Edward Hu, Jing Cao, Dinesh Jayaraman, Leslie Pack Kaelbling, Tomás Lozano-Pérez2026-03-11💻 cs