Each language version is independently generated for its own context, not a direct translation.
论文技术总结:基于大语言模型引导的 partially observable 任务与运动规划状态估计
论文标题:Large-Language-Model-Guided State Estimation for Partially Observable Task and Motion Planning (LLM 引导的 partially observable 任务与运动规划状态估计)
作者:Yoonwoo Kim, Raghav Arora, Roberto Martín-Martín, Peter Stone, Ben Abbatematteo, Yoonchang Sung
机构:德克萨斯大学奥斯汀分校 (UT Austin), 南洋理工大学 (NTU)
1. 问题背景 (Problem Description)
在部分可观测(Partially Observable)的环境中,机器人进行长时程的任务与运动规划(TAMP)面临巨大挑战。主要难点包括:
- 不确定性:环境中存在物体位姿未知、遮挡(Occlusion)以及物体不可见的情况。
- 传统方法的局限:传统的确定性 TAMP 求解器在遇到未预见的遮挡或未知物体时容易失败。
- 信息缺失:在规划执行过程中,机器人可能会意外观察到与当前任务无关的物体(Task-irrelevant objects)。传统的朴素规划器通常会忽略这些物体,从而错失了利用这些物体推断任务相关物体位置的机会。
- 常识知识获取难:虽然人类知道“物体通常放在哪里”(如烤面包机在厨房)以及“相似物体通常在一起”(如勺子和叉子),但手动为机器人工程化这些常识知识非常复杂且难以扩展。
本文旨在解决**部分可观测任务与运动规划(PO-TAMP)**问题,即如何让机器人在物体不可见或部分可见的情况下,利用常识推理来更准确地估计物体状态,从而高效完成规划任务。
2. 方法论 (Methodology: COCO-TAMP)
作者提出了 COCO-TAMP 框架,这是一个分层的状态估计与规划执行系统,核心在于利用**大语言模型(LLM)**提供的常识先验和共位线索来塑造机器人的信念(Belief)。
2.1 核心组件
COCO-TAMP 将 LLM 的推理能力与基于模型的验证器相结合,采用“生成与验证(Generate and Verify)”的范式:
LLM 引导的初始信念生成 (Initial Belief Generation):
- 利用 LLM 的常识知识,通过**多项选择题(MCQA)**的形式,预测任务相关物体最可能所在的房间(Room)和表面(Surface)。
- 将 LLM 输出的 Token 概率转化为离散的概率分布,作为贝叶斯滤波的初始先验(Prior),而非传统的均匀分布。
基于语义相似度的共位模型 (Co-location Model):
- 原理:相似物体倾向于共位(Co-located),不相似物体倾向于分散。
- 实现:利用 LLM 生成描述物体用途的句子,通过 Embedding 模型计算物体间的余弦相似度。
- 应用:当观察到物体 j 时,利用相似度 sim(j,k) 更新物体 k 位于同一位置的概率。如果 sim(j,k) 高,则增加 k 在 j 所在位置的信念;反之则降低。
- 动态开关(Co-location Toggler):LLM 还被用来判断是否启用共位模型(例如,开关可能分散在不同房间,此时应禁用共位假设)。
分层贝叶斯状态估计 (Hierarchical State Estimation):
- 系统维护三个层级的信念:房间 (xr)、表面 (xs) 和连续位姿 (xp)。
- 离散层:使用离散贝叶斯滤波器更新房间和表面的信念。
- 连续层:使用粒子滤波器更新物体的连续位姿。
- 可见性感知观测模型:引入可见性系数(Visibility, v∈[0,1]),区分“未检测到是因为物体不在”和“未检测到是因为被遮挡/视野受限”。这避免了在部分遮挡下错误地否定物体的存在。
规划与执行循环:
- 底层使用 PDDLStream 作为 TAMP 求解器,将符号动作与连续变量采样耦合。
- 规划器根据当前的信念分布计算成本(例如,探测动作的成本与检测到物体的概率成反比)。
- 执行过程中,一旦观测到物体或发生失败,立即更新信念并触发重规划(Replanning)。
3. 主要贡献 (Key Contributions)
- 提出 COCO-TAMP 框架:首个将 LLM 的常识推理(物体位置先验和共位关系)无缝集成到 PO-TAMP 信念空间规划中的系统。
- 分层状态估计机制:设计了一种结合 LLM 先验、语义相似度共位模型和可见性感知观测模型的分层贝叶斯滤波器,显著提高了在部分可观测环境下的状态估计准确性。
- 实证有效性:
- 在大规模仿真(Housekeep 数据集)和真实机器人(Toyota HSR)实验中验证了系统。
- 证明了 LLM 先验能有效引导早期决策,而共位模型能优化长时程规划中的信念更新。
- 展示了在对抗性设置(常识被打破)下,结合贝叶斯更新的方法比单纯依赖 LLM 更新更具鲁棒性。
4. 实验结果 (Results)
实验对比了多种变体(Baseline, 仅共位模型,仅 LLM 信念更新,MCQA 等),主要指标为累积规划与执行时间及重规划次数。
- 仿真结果:
- 相比没有常识知识的 Baseline,COCO-TAMP(结合 MCQA 和共位模型)在平均规划与执行时间上减少了 62.7%。
- 在重规划次数上也显著降低,表明系统能更快找到解决方案。
- 在不同房间和表面数量的复杂布局中(最高达 8 个房间 32 个表面),COCO-TAMP 均表现出最优性能。
- 真实世界实验:
- 在 Toyota HSR 机器人上进行的真实公寓环境中,COCO-TAMP 将执行时间从 Baseline 的 365 秒降低至 100 秒(减少 72.6%)。
- 消融实验发现:
- H1 (泛化性):在多种布局下均有效。
- H2 (LLM 先验):LLM 生成的初始信念显著减少了早期搜索空间。
- H3 (共位模型):利用语义相似度的共位模型进一步细化了信念,减少了不确定性。
- H4 (LLM 更新的局限性):仅依赖 LLM 进行信念更新(LGBU)在长时程任务中表现不佳,容易失败;必须结合贝叶斯滤波才能保证鲁棒性。
5. 意义与影响 (Significance)
- 解决部分可观测难题:为机器人在非结构化、遮挡严重的环境中执行复杂任务提供了一套高效的解决方案,不再完全依赖完美的感知或预知。
- LLM 与经典规划的结合:展示了 LLM 不必直接作为规划器(LLM 作为规划器通常不可靠),而是作为**知识源(Knowledge Source)**来引导经典概率规划算法,这种“生成 + 验证”的模式更具可扩展性和可靠性。
- 降低工程成本:通过利用 LLM 的通用常识,避免了为特定环境手动构建复杂的概率先验分布,使得机器人更容易适应新的家庭或办公环境。
- 未来方向:该方法为将大模型能力融入具身智能(Embodied AI)的感知 - 规划闭环提供了新的范式,未来可探索在工厂、医院等非家庭环境中的应用,以及处理环境布局完全未知的情况。
总结:COCO-TAMP 成功地将大语言模型的常识推理能力转化为机器人规划中的概率先验和状态估计线索,显著提升了机器人在部分可观测环境下的任务执行效率和鲁棒性。