SurgCUT3R: Surgical Scene-Aware Continuous Understanding of Temporal 3D Representation

本文提出了 SurgCUT3R 框架,通过构建基于公开立体数据集的大规模伪真深度数据生成管线、采用混合监督策略以及设计分层推理架构,有效解决了单目内窥镜视频在手术场景下因缺乏监督数据及长序列累积漂移导致的 3D 重建难题,实现了兼具高精度与高效率的手术场景连续理解。

Kaiyuan Xu, Fangzhou Hong, Daniel Elson, Baoru Huang2026-03-10💻 cs

T2SGrid: Temporal-to-Spatial Gridification for Video Temporal Grounding

本文提出了 T2SGrid 框架,通过将视频片段内的帧按时间顺序重组为复合网格图像,将视频时序理解转化为空间理解任务,从而有效解决了现有方法在时序建模中面临的计算开销大、注意力稀疏及空间细节丢失等问题,并在视频时序定位基准上取得了优越性能。

Chaohong Guo, Yihan He, Yongwei Nie, Fei Ma, Xuemiao Xu, Chengjiang Long2026-03-10💻 cs

VSL-Skin: Individually Addressable Phase-Change Voxel Skin for Variable-Stiffness and Virtual Joints Bridging Soft and Rigid Robots

本文提出了 VSL-Skin,一种首个实现厘米级精度独立寻址体素控制的变刚度晶格皮肤系统,通过相变材料在保持结构完整性的同时实现了近两个数量级的刚度调制、30% 轴向压缩及自修复功能,从而支持可编程虚拟关节并弥合了软体与刚性机器人之间的鸿沟。

Zihan Oliver Zeng, Jiajun An, Preston Luk, Upinder Kaur2026-03-10💻 cs

Optimizing Multi-Modal Models for Image-Based Shape Retrieval: The Role of Pre-Alignment and Hard Contrastive Learning

该论文提出利用预对齐的多模态编码器(如 OpenShape 与 Point-BERT)结合多模态硬对比学习(HCL),在无需视图合成或目标数据库重训练的情况下,实现了图像到 3D 形状的零样本及监督检索,并在多个数据集上取得了超越现有方法的性能。

Paul Julius Kühn, Cedric Spengler, Michael Weinmann, Arjan Kuijper, Saptarshi Neil Sinha2026-03-10💻 cs

Perception-Aware Multimodal Spatial Reasoning from Monocular Images

该论文提出了一种感知感知的多模态空间推理框架,通过引入视觉参考令牌(VRT)实现对象级 grounding 并构建多模态思维链数据集,仅凭标准监督微调便在 SURDS 基准测试中大幅超越了包括强化学习后训练在内的现有方法,显著提升了单目驾驶场景下的空间理解能力。

Yanchun Cheng, Rundong Wang, Xulei Yang, Alok Prakash, Daniela Rus, Marcelo H Ang Jr, ShiJie Li2026-03-10💻 cs

ADAS-TO: A Large-Scale Multimodal Naturalistic Dataset and Empirical Characterization of Human Takeovers during ADAS Engagement

本文发布了首个专注于 ADAS 向人工接管过渡的大规模自然驾驶数据集 ADAS-TO,该数据集包含来自 327 名驾驶员的 15,659 个同步视频与 CAN 日志片段,并通过结合运动学筛选与视觉语言模型分析,揭示了关键接管事件中的风险特征及提前 3 秒出现可操作视觉线索的规律,为开发语义感知预警系统提供了重要依据。

Yuhang Wang, Yiyao Xu, Jingran Sun, Hao Zhou2026-03-10💻 cs

Foundational World Models Accurately Detect Bimanual Manipulator Failures

该论文提出了一种基于预训练视觉基础模型(Cosmos Tokenizer)压缩潜在空间的概率性世界模型,通过结合保形预测框架生成不确定性指标来构建运行时监控器,从而在无需显式定义故障模式的情况下,以极少的参数量实现了对双机械臂操作任务中异常故障的高效准确检测。

Isaac R. Ward, Michelle Ho, Houjun Liu, Aaron Feldman, Joseph Vincent, Liam Kruse, Sean Cheong, Duncan Eddy, Mykel J. Kochenderfer, Mac Schwager2026-03-10💻 cs

An Extended Consent-Based Access Control Framework: Pre-Commit Validation and Emergency Access

本文提出了一种扩展的基于同意的访问控制框架,通过在同意创建阶段引入预提交冲突验证、形式化系统不变量以保障基础访问权限,并结合基于实时生理证据的上下文感知紧急访问机制,有效解决了传统方案中运行时冲突处理的延迟与语义不一致问题,同时显著提升了系统可扩展性与临床数据安全性。

Nasif Muslim, Jean-Charles Grégoire2026-03-10💻 cs

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

受人类大脑模块化组织启发,Mozart 提出了一种面向 3.5D 晶圆级芯片架构的算法 - 硬件协同设计框架,通过专家分配策略、细粒度调度机制及异构模块自适应共置,有效解决了混合专家模型(MoE)训练中的稀疏性挑战并显著提升了大规模语言模型的并行化效率与资源利用率。

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong Chen2026-03-10💻 cs