GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models
本文提出了 GST-VLA 模型,通过引入高斯空间分词器(GST)将视觉观测转化为具有内在几何结构的 3D 高斯原语,并结合 3D 深度感知思维链(DA-CoT)推理机制,显著提升了机器人在 LIBERO 和 SimplerEnv 等基准测试中的 3D 感知与操作精度。
684 篇论文
本文提出了 GST-VLA 模型,通过引入高斯空间分词器(GST)将视觉观测转化为具有内在几何结构的 3D 高斯原语,并结合 3D 深度感知思维链(DA-CoT)推理机制,显著提升了机器人在 LIBERO 和 SimplerEnv 等基准测试中的 3D 感知与操作精度。
该论文提出了一种结合深度随机 Koopman 算子模型、分层验证机制(并行物理仿真与 SOS 规划)及模型预测路径积分控制器的新型风险约束运动规划框架,旨在为运动和环境不确定性下的机械臂在复杂非凸环境中生成具备形式化碰撞风险保证的安全高效轨迹。
本文提出了一种统一的潜在空间框架,通过构建涵盖表征形式与结构先验的分类体系、明确五大核心内部机制并制定闭环评估方案,系统性地总结了潜在世界模型在自动驾驶中的进展,并指明了实现决策就绪、可验证且资源高效自动驾驶的未来研究方向。
本文提出了名为 PM-Nav 的先验地图引导具身导航框架,通过将环境地图转化为语义先验地图并结合分层思维链提示与多模型协同机制,有效解决了功能建筑中特征高度相似导致的导航难题,在仿真与真实场景中相比现有方法实现了显著的性能提升。
本文提出了 DexHiL,这是首个针对灵巧操作视觉 - 语言 - 动作(VLA)模型的人机协同后训练框架,通过集成臂手协调干预、干预感知数据采样及轻量级遥操作接口,显著提升了机器人在复杂任务中的成功率。
该论文提出了一种适用于 6 至 16 条腿机器人的分段式控制架构,通过结合事件级联与中枢模式发生器(CPG)的优势,实现了在粗糙地形上的自适应高效运动,并可为机器学习控制器的训练提供轻量级基础。
本文提出了名为 SPAN-Nav 的端到端基础模型,通过利用 420 万标注数据训练 occupancy 预测任务并提取单 Token 空间先验,显著增强了视觉语言导航在复杂环境中的通用 3D 空间感知能力,从而在多个基准测试和真实世界场景中实现了最先进的性能。
ZeroWBC 是一种无需大规模机器人遥操作数据、直接利用人类第一人称视频微调视觉语言模型以生成并执行自然全身动作的人形机器人控制框架,显著提升了人形机器人在场景交互中的自然性与通用性。
本文提出了名为 STONE 的大规模多模态非结构化环境数据集,通过全自动无标注流程生成轨迹引导的 3D 可通行性地图,并配备同步的激光雷达、相机和雷达数据,旨在解决现有数据集在可扩展性和多模态感知方面的不足,推动非地面机器人导航中 3D 可通行性预测技术的发展。
该论文提出了一种结合拓扑间隙识别与加速模型预测控制(MPC)的框架,通过高斯过程预测对手行为并构建动态占用走廊,在 F1TENTH 平台上实现了比现有方法更优的超高速多智能体赛车规划,显著缩短了超车时间、提高了成功率并降低了计算延迟。
本文提出了 WESPR 框架,该框架通过融合几何感知与局部气象数据快速预测环境风场,使四旋翼无人机能够在 10 秒内实现主动路径规划与控制调整,从而显著降低轨迹偏差并提升在湍流环境中的飞行稳定性。
该论文提出了一种基于全身体肌肉骨骼模型与强化学习的可扩展人体仿真框架,通过模拟人机耦合系统获取内部生物力学指标,实现了交互式机器人结构与控制策略的协同优化。
本文提出了 TRIP-Bag,一种可装入商用手提箱的便携式遥操作系统,它能在五分钟内快速部署并实现直接关节映射,从而有效解决了在实验室外收集高质量机器人操作数据时面临的设备差异和部署难题。
该论文提出了 GPU 原生多目标强化学习算法 MORLAX 及配套的 MO-Playground 环境库,通过大规模并行化将计算速度提升 25 至 270 倍,有效解决了复杂机器人多目标优化问题中计算耗时过长且难以扩展的瓶颈。
该论文提出了一种名为 RAE-NWM 的导航世界模型,通过在保留细粒度结构信息的密集视觉特征空间(而非压缩潜在空间)中建模动作条件状态转移,并结合条件扩散 Transformer 与时间驱动门控模块,显著提升了视觉导航的结构稳定性与动作控制精度。
该论文提出了一种利用网络视频和隐式几何表示的大规模视觉语言导航框架,通过从 RGB 帧直接提取空间线索来克服传统 3D 重建的局限性,从而在多个基准测试中实现了最先进的性能并推动了零样本导航的发展。
本文提出了名为“见、规划、回退”(SPR)的进度感知视觉 - 语言 - 动作框架,该框架通过将语言指令动态转化为空间子目标序列,并在执行中持续监测进度、规划轨迹及在失败时回退至可恢复状态,从而在不依赖额外训练数据或辅助模型的情况下显著提升了机器人操作的鲁棒性与泛化能力。
本文提出了 CORAL 框架,通过冻结预训练 VLA 骨干网络并为每个任务分配独立的轻量级 LoRA 专家,在运行时动态切换专家以彻底消除多任务学习中的梯度冲突与灾难性遗忘,从而在真实机器人和多个仿真基准上实现了高效、可扩展的终身多任务学习。
本文提出了 NLiPsCalib 框架,通过结合可控近场光源与近场光度立体视觉技术,仅需少量日常物体接触即可高效校准弯曲视觉触觉传感器,从而显著降低高保真 3D 重建的门槛并提升其重建精度。
本文提出了 SPAARS 框架,通过结合课程学习策略,先在低维潜在空间进行安全高效的探索以规避重建损失带来的性能瓶颈,再无缝过渡到原始动作空间进行精细化利用,从而在离线到在线强化学习中显著提升了样本效率与最终性能。