Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

该论文提出了受图灵测试启发的“运动图灵测试”框架及包含 1000 个动作序列的 HHMotion 数据集,通过消除视觉外观干扰的纯运动学评估,揭示了当前人形机器人在动态动作中仍与人类存在显著差异,并证明了专用基线模型在预测运动拟人度方面优于多模态大语言模型。

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

本文提出了 CRIMSON,这是一种基于临床指南的大语言模型评估框架,通过引入患者背景信息、细粒度的错误分类及基于临床重要性的加权机制,在诊断正确性、上下文相关性和患者安全性方面实现了对胸部 X 光报告生成任务更精准且与放射科专家判断高度一致的评估。

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

本文提出了 TaPD 框架,通过结合基于渐进式知识蒸馏的观测自适应预测器与基于场景演化条件的时间回溯模块,有效解决了自动驾驶中因遮挡或感知受限导致的变长历史观测轨迹预测难题,并在不同观测长度下显著提升了预测性能。

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

本文提出了 HCF-RES 框架,通过利用 SAM 实例掩码引导的层次化视觉语义分解以及包含跨模态自适应加权的多级融合机制,解决了现有方法在 3D 通用指代分割任务中因缺乏丰富视觉语义而难以处理细粒度描述的问题,并在 ScanRefer 和 Multi3DRefer 数据集上取得了最先进性能。

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

该论文提出了 GazeMoE 框架,通过在大模型中引入混合专家(MoE)模块自适应地融合眼动、头部姿态及上下文等多模态线索,并结合类别平衡损失与数据增强策略,有效解决了机器人视线目标估计中的泛化与类别不平衡难题,在基准测试中取得了最先进性能。

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI