Uncertainty Mitigation and Intent Inference: A Dual-Mode Human-Machine Joint Planning System

该论文提出了一种双模态人机联合规划系统,通过结合基于大语言模型的主动消歧机制与基于时空线索的意图推断模块,有效解决了开放环境中任务知识缺失与人类意图隐含带来的双重不确定性,显著降低了交互成本并提升了任务执行效率。

Zeyu Fang, Yuxin Lin, Cheng Liu, Beomyeol Yu, Zeyuan Yang, Rongqian Chen, Taeyoung Lee, Mahdi Imani, Tian Lan

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让**机器人(特别是无人机)变得更像“聪明队友”**的新系统。

想象一下,你以前用的机器人像个只会听指令的笨拙实习生:你让它“去拿那个红色的盒子”,如果现场有两个红盒子,它可能会随机选一个,或者卡住不动等你重新解释。它不会主动问问题,也不会猜你想干什么。

而这篇论文提出的系统,则像是一个经验丰富的老搭档。它不仅能听懂你的话,还能在两个关键方面主动思考:

1. 当信息模糊时:它是个“会提问的侦探”

场景:你命令无人机:“把药箱里的药送给伤员。”
问题:现场有三个箱子(黑、蓝、黄),哪个是药箱?哪个箱子挡住了路?
旧方法

  • 不问人:机器人瞎猜,可能选错箱子,或者撞进火堆里(失败)。
  • 问所有人:机器人把每个箱子都问一遍“你是药箱吗?”“你能穿过吗?”,虽然能成功,但废话太多,效率极低。

新方法(不确定性缓解模式)
这个系统像个精明的侦探

  • 先推理:它先利用大语言模型(LLM)分析:“通常药箱是蓝色的,而且那个黄色箱子看起来像障碍物。”
  • 再提问:它不会问所有问题,而是通过数学计算(动态规划),算出问哪一个问题最划算
    • 比如,它发现只要确认“火能不能穿过去”,就能决定走哪条路,于是它只问这一句:“火那边安全吗?”
    • 如果火那边安全,它就不需要再问那个网能不能穿过去了。
  • 结果:它用最少的问题(比旧方法少了 51.9% 的沟通成本),就找到了最安全、最正确的路线。

比喻:就像你去医院看病,老医生不会问“你哪里痛?全身都痛吗?”,而是根据你的症状,精准地问一句:“是左边还是右边?”就能确诊。

2. 当没有指令时:它是个“懂眼色的默契队友”

场景:你和机器人一起救灾。你正忙着搬开一块大石头(独立任务),旁边有个伤员需要两个人一起抬(合作任务)。
问题:机器人该干什么?是跟着你搬石头,还是去抬伤员?
旧方法

  • 死板跟随:机器人看到你往石头走,它也往石头走。结果两个人都在搬石头,伤员没人管(效率低)。
  • 盲目猜测:机器人猜你想干啥,猜错了就乱跑。

新方法(意图感知模式)
这个系统像个心有灵犀的队友

  • 观察微动作:它不等你说话,而是盯着你的移动方向距离
    • 如果你正走向伤员,它立刻明白:“哦,我们要合作救人!”于是它加速跑向伤员,等你一起抬。
    • 如果你走向石头,它明白:“这是你的独立任务,我不去添乱。”于是它自动去处理旁边的其他独立任务。
  • 结果:它不需要你喊“你去抬伤员”,就能自动补位。这让整个任务完成时间缩短了 25.4%。

比喻:就像你和朋友打篮球,你刚做一个假动作往左跑,朋友不用你喊“传球”,就已经知道你要突破,提前把球传到了你手边。这就是“默契”。

系统是怎么工作的?(简单版)

  1. 眼睛(感知系统):无人机带着摄像头,利用最新的 AI 技术(视觉 - 语言模型),不仅能看到物体,还能听懂“那个蓝色的箱子”是指哪个。
  2. 大脑(核心规划引擎):这是论文的核心。它有两个模式:
    • 模式一(问问题):遇到不懂的,用数学算出怎么问最省钱、最快。
    • 模式二(猜心思):遇到没指令的,通过观察你的动作,猜出你想干什么,然后主动配合。
  3. 嘴巴(语音交互):你可以直接跟它说话,它也能用语音回复你,像真人一样聊天。

实验效果怎么样?

研究人员在电脑模拟(Gazebo)和真实的无人机飞行中都测试了这个系统:

  • 问问题更少:在需要确认信息时,它比“不问”和“乱问”都要聪明,沟通成本降低了51.9%
  • 干活更快:在需要配合人类时,它比“死板跟随”的机器人快了25.4%,而且人类自己走的冤枉路也少了。

总结

这篇论文的核心思想是:未来的机器人不应该只是执行命令的工具,而应该是能主动消除疑惑、能读懂人心、能和你并肩作战的“智能队友”。

它通过**“少问一句废话”“多猜一个心思”**,让人机协作变得像两个老朋友配合一样自然高效。