Provably Safe Trajectory Generation for Manipulators Under Motion and Environmental Uncertainties

该论文提出了一种结合深度随机 Koopman 算子模型、分层验证机制(并行物理仿真与 SOS 规划)及模型预测路径积分控制器的新型风险约束运动规划框架,旨在为运动和环境不确定性下的机械臂在复杂非凸环境中生成具备形式化碰撞风险保证的安全高效轨迹。

Fei Meng, Zijiang Yang, Xinyu Mao, Haobo Liang, Max Q. -H. MengWed, 11 Ma💻 cs

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

本文提出了 DexHiL,这是首个针对灵巧操作视觉 - 语言 - 动作(VLA)模型的人机协同后训练框架,通过集成臂手协调干预、干预感知数据采样及轻量级遥操作接口,显著提升了机器人在复杂任务中的成功率。

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

SPAN-Nav: Generalized Spatial Awareness for Versatile Vision-Language Navigation

本文提出了名为 SPAN-Nav 的端到端基础模型,通过利用 420 万标注数据训练 occupancy 预测任务并提取单 Token 空间先验,显著增强了视觉语言导航在复杂环境中的通用 3D 空间感知能力,从而在多个基准测试和真实世界场景中实现了最先进的性能。

Jiahang Liu, Tianyu Xu, Jiawei Chen, Lu Yue, Jiazhao Zhang, Zhiyong Wang, Minghan Li, Qisheng Zhao, Anqi Li, Qi Su, Zhizheng Zhang, He WangWed, 11 Ma💻 cs

STONE Dataset: A Scalable Multi-Modal Surround-View 3D Traversability Dataset for Off-Road Robot Navigation

本文提出了名为 STONE 的大规模多模态非结构化环境数据集,通过全自动无标注流程生成轨迹引导的 3D 可通行性地图,并配备同步的激光雷达、相机和雷达数据,旨在解决现有数据集在可扩展性和多模态感知方面的不足,推动非地面机器人导航中 3D 可通行性预测技术的发展。

Konyul Park, Daehun Kim, Jiyong Oh, Seunghoon Yu, Junseo Park, Jaehyun Park, Hongjae Shin, Hyungchan Cho, Jungho Kim, Jun Won ChoiWed, 11 Ma💻 cs

Robust Spatiotemporal Motion Planning for Multi-Agent Autonomous Racing via Topological Gap Identification and Accelerated MPC

该论文提出了一种结合拓扑间隙识别与加速模型预测控制(MPC)的框架,通过高斯过程预测对手行为并构建动态占用走廊,在 F1TENTH 平台上实现了比现有方法更优的超高速多智能体赛车规划,显著缩短了超车时间、提高了成功率并降低了计算延迟。

Mingyi Zhang, Cheng Hu, Yiqin Wang, Haotong Qin, Hongye Su, Lei XieWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

该论文提出了一种利用网络视频和隐式几何表示的大规模视觉语言导航框架,通过从 RGB 帧直接提取空间线索来克服传统 3D 重建的局限性,从而在多个基准测试中实现了最先进的性能并推动了零样本导航的发展。

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

本文提出了名为“见、规划、回退”(SPR)的进度感知视觉 - 语言 - 动作框架,该框架通过将语言指令动态转化为空间子目标序列,并在执行中持续监测进度、规划轨迹及在失败时回退至可恢复状态,从而在不依赖额外训练数据或辅助模型的情况下显著提升了机器人操作的鲁棒性与泛化能力。

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs