原作者： Yuanchu Liang, Edward Kim, J. Arden Knoll, Wil Thomason, Zachary Kingston, Lydia E. Kavraki, Hanna Kurniawati

发布于 2026-06-04✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

原作者： Yuanchu Liang, Edward Kim, J. Arden Knoll, Wil Thomason, Zachary Kingston, Lydia E. Kavraki, Hanna Kurniawati

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在引导一个机器人在黑暗、多雾的迷宫中穿行。你看不清完整的地图，也不知道自己此刻确切的位置。你只能捕捉到周围环境模糊、微小的瞬间。你的目标是到达出口，但每一次错误的转向都会消耗你的时间和能量。这就是不确定性下的运动规划（motion planning under uncertainty）问题，也是机器人每天在现实世界中所面临的挑战。

长期以来，计算机在高效解决这一问题上一直很吃力，尤其是在处理长距离、复杂的旅程时。这篇论文介绍了一种名为 ROP-RAS3 的新方法（名字虽然拗口，但你可以把它想象成一个“智能导航员”），它能帮助机器人更快地做出更好的决策。

以下是其工作原理的拆解，通过简单的概念进行说明：

1. 问题所在：“预见未来”的陷阱

为了做出正确的决策，机器人通常会尝试想象未来。它会问：“如果我向左转，会发生什么？如果接着我向右转，接下来又会发生什么？”

旧方法： 传统方法试图在每一步都检查所有可能的动作。想象一下，你要规划一次旅行，却要检查未来100英里内所有可能的道路组合、红绿灯和绕行路线。这需要消耗巨大的计算能力，导致机器人陷入停滞或放弃。
局限性： 这就是为什么机器人在执行长任务（如在巨大的仓库中导航或操作杂乱的货架）时经常失败的原因。它们无法看得足够远，从而无法看到解决方案。

2. 解决方案：“快速素描”（VAMP）

作者意识到，机器人不应该检查每一个细微的动作，而应该观察大块的移动（称为“宏动作”，macro-actions）。

类比： 想象你在画一张地图。你不需要画出墙上的每一块砖头，只需要勾勒出墙的轮廓。
工具： 他们使用了一个名为 VAMP（向量加速运动规划）的工具。把 VAMP 想象成一位超级快速的艺术家，它能在眨眼之间（微秒级）在迷宫中绘制出数千条有效的路径。它现在还不必担心迷雾，它只是快速绘制出如果世界清晰时将会奏效的路径。

3. 策略：“可靠的向导”（参考策略）

这是聪明之处。机器人并不将这些超快速的素描作为最终计划，而是将其作为引导。

旧方法： 机器人每次都会尝试从零开始计算完美的动作。
新方法 (ROP-RAS3)： 机器人会说：“我有一个向导（VAMP 素描）向我展示了一些好的路径。我将把这些路径作为起点。”
运作方式： 机器人不再检查宇宙中每一个可能的动作，而只检查由其向导建议的动作。然后它会问：“考虑到目前的这种迷雾情况，这些向导建议的路径中，哪一个是目前最适合采取的？”

这就像你有一个 GPS 建议了三条不错的路线。你不需要计算城市里每一条街道的交通状况，你只需要比较这三条路线，并根据当前情况选出最好的那一条。

4. 为什么它是一个游戏规则改变者

速度： 因为机器人停止了尝试检查“一切”，转而只检查来自其快速向导的“优质建议”，所以它可以规划得更远。论文显示，它可以规划 3,000 步之远，而其他方法在 15 步之后就会遇到困难。
成功率： 在测试中，这种新方法的成功率是现有最佳方法的数倍。
现实世界验证： 他们在一个有行人走动的实验室环境中，使用一台真实的机器人（Hello-Robot Stretch）进行了测试。
- 其他机器人： 要么撞到行人，要么采取极其低效的绕行路线。
- ROP-RAS3： 机器人平滑地避开了行人并到达了目标，这表明它能够“预见未来”以避免碰撞。

总结类比

想象你在玩一盘国际象棋，但棋盘上覆盖着浓雾，你只能看到手边附近的棋子。

旧 AI： 试图为每一个棋子计算未来 20 步的所有可能走法。它会被信息淹没，从而做出错误的决策。
ROP-RAS3： 根据通用规则，快速勾勒出一些“看起来不错”的走法（比如“把骑士移到这里”或“把兵推到那里”）。然后，它只针对这些特定的走法去计算迷雾中的细节。因为它不再把时间浪费在糟糕的想法上，所以它能更快地找到获胜策略。

简而言之： 这篇论文为机器人提供了一种通过使用超快速素描器来提出好主意，并利用智能过滤器来挑选当前不确定情况下的最优解，从而实现“快速且长远思考”的方法。它让机器人能够处理以前无法完成的复杂、长期任务。

技术摘要：快速且远见卓识：通过快速状态采样实现长时程在线 POMDP 规划

1. 问题陈述

部分可观测马尔可夫决策过程（POMDPs）为不确定性下的运动规划提供了一个原则性的框架，它通过对置信状态（状态的概率分布）而非状态空间本身进行推理来进行决策。然而，求解长时程 POMDP（需要 $\ge$ 15 步前瞻）仍然是一个重大挑战，因为动作和观测会导致分支因子呈指数级增长。

现有的在线 POMDP 求解器面临两个主要的瓶颈：

基于采样的运动规划（SBMP）的计算成本： 传统的 SBMP 虽然在确定性规划中非常有效，但在历史上需要数百毫秒到数秒的时间来生成单个计划，这使得它们对于需要快速生成宏动作（macro-action）的在线 POMDP 循环来说过于缓慢。
动作空间枚举： 大多数在线规划器（例如 POMCP、DESPOT）会在每个采样的置信状态处穷举所有可能的动作，以计算最优动作。这限制了运行时可以采样的宏动作数量，从而限制了规划器高效覆盖多样化可达置信空间的能力。

2. 方法论：ROP-RAS3

作者提出了 ROP-RAS3（基于参考的在线 POMDP 规划，通过快速状态空间采样），这是一种旨在解决上述瓶颈的近似在线求解器。该方法集成了三个核心组件：

2.1 通过 VAMP 进行快速宏动作生成

ROP-RAS3 利用了 向量加速运动规划（VAMP），这是一个硬件加速的 SBMP 框架。VAMP 利用 SIMD（单指令多数据）向量化技术，并行执行碰撞检测和运动学验证。这使得在高自由度系统中以千赫兹速率（每秒数万个计划）生成概率完备且无碰撞的轨迹成为可能。这些轨迹在在线过程中被转换为宏动作（原始动作序列）。

2.2 连续基于参考的 POMDP 公式化

论文引入了一种改进的基于参考的 POMDP 公式化方法。与以往将参考定义为置信状态到置信状态的转移不同，ROP-RAS3 将参考定义为一个随机策略 $\bar{\pi}(\cdot|b)$ 。

目标： 求解器最大化一个受 KL 散度惩罚的奖励函数，该惩罚项相对于参考策略：
$V(b) = \sup_{\pi} \left[ R(b, \pi) - \frac{1}{\eta} KL(\pi \parallel \bar{\pi}) + \gamma \int_{A,O} P(o|a,b)\pi(a|b)V(\tau(b,a,o)) da do \right]$
部分解析解： 上述目标可以部分解析求解，从而得到最优策略的仅含期望形式的解：
$\pi^*(a|b) \propto \bar{\pi}(a|b) \exp(\eta Q(b, a))$
这取代了在动作空间上进行高昂的数值最大化（枚举）过程，转而使用期望估计，有效地消除了对总动作空间大小 $|A|$ 的依赖。

2.3 树搜索与收敛性

ROP-RAS3 采用一种树搜索策略，将 VAMP 生成的宏动作作为参考策略集成其中。

渐进拓宽（Progressive Widening）： 算法对动作和观测均使用双重渐进拓宽，以处理连续空间。
采样策略： 规划器不再枚举所有动作，而是根据信息丰富的状态（如目标、地标）从参考策略（由 VAMP 诱导）中采样宏动作。
收敛性： 作者证明了 ROP-RAS3 的收敛速率取决于 $C_A$ （每个置信节点采样的动作数量），而非 $|A|$ （总动作空间大小）。其收敛界限为 $O(C_A(C_A C_S)^D \exp(-\min\{C_A, C_S\}t_{max}^2))$ ，其中 $C_S$ 是状态样本数量， $D$ 是树深度。

3. 主要贡献

ROP-RAS3 算法： 一种新型在线 POMDP 求解器，它将快速、硬件加速的 SBMP（VAMP）与基于参考的 POMDP 公式化相结合，用以处理连续及混合空间中的长时程规划。
理论进展： 一种改进的基于参考的 Bellman 回退机制，通过将优化替换为期望估计，实现了对连续动作空间的处理，从而使收敛速率取决于采样动作的数量而非动作空间的基数。
可扩展性： 能够解决具有高达 3000 步前瞻和 35 维状态空间的 POMDP，这些维度对于标准在线求解器而言是难以处理的。
实验验证： 在 7 个模拟场景（导航与操作）以及物理机器人演示（Hello-Robot Stretch 3）上进行了广泛评估。

4. 实验结果

论文将 ROP-RAS3 与包括 POMCP、DESPOT（带有学习到的宏动作 MAGIC/RMAG）以及不带 VAMP 的基于参考的规划器（Ref-Basic）在内的最先进基准方法进行了对比。

性能： ROP-RAS3 在所有测试场景中的成功率均优于所有基准方法，且通常领先数倍。
- 导航： 在 Maze2D（100 步时程）和 Random3D（高障碍物密度）任务中，ROP-RAS3 达到了 80-90% 的成功率，而 POMCP 和 Ref-Basic 等基准方法则失败或成功率接近于零。
- 操作： 在高维操作任务（Sphere-Search、Ray-Detect、具有 35 维状态空间的 Shelf-Move）中，ROP-RAS3 是唯一能实现高成功率的方法（例如在 1500 步时程的 Shelf-Move 中达到 70%）。基于学习的方法（MAGIC、RMAG）无法扩展到这些维度。
- 多智能体： 在 Multi-Drone Tag 场景中，ROP-RAS3 达到了 90% 的成功率，显著优于 R-POMCP（66.7%）。
物理机器人： 在 Hello-Robot Stretch 3 绕过移动行人进行导航的任务中，只有 ROP-RAS3 成功执行了智能绕行以避免碰撞并到达目标。基准方法要么与行人发生碰撞，要么无法高效地在环境中导航。
消融研究：
- 参考策略质量： 当参考策略变得更加均匀（信息量减少）时，性能会下降，但 ROP-RAS3 仍保持鲁棒，即使在纯探索性参考策略下也优于基准方法。
- 树深度： 存在一个最优树深度（大约等于确定性解的步数）；在固定时间预算下，树过浅或过深都会降低性能。

5. 意义与主张

论文声称 ROP-RAS3 代表了使长时程 POMDP 规划在复杂机器人系统中变得实用的重要进步。

克服枚举瓶颈： 通过利用基于参考的 POMDP，该方法绕过了对动作进行穷举的需求，从而允许集成由快速运动规划器生成的各种高质量宏动作。
处理高维空间： 该方法成功扩展到了连续、高维的状态和动作空间（高达 35 维），而在这些维度下，基于学习的方法和传统的在线求解器均会失效。
鲁棒性： VAMP 的集成使规划器能够快速适应几何约束和不确定性，生成能够考虑长期后果（例如在拥挤的货架或移动障碍物中导航）的鲁棒策略，而这些是短时程规划器所忽略的。

作者指出，虽然基于参考的最优解可能与标准的 POMDP 最优解有所不同，但实验结果表明，这种公式化方法使得解决此前无法在线完成的挑战性机器人任务成为可能。这项工作扩展了他们之前的 ISRR24 论文，通过处理连续空间、提供更简洁的回退公式，并增加了收敛性分析和物理机器人演示。

Think Fast and Far: Long-Horizon Online POMDP Planning via Rapid State Sampling