REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

本文提出了首个基于语用学理论建模模糊指代表达(REs)的机器人任务规划基准 REI-Bench,揭示了模糊指令会导致规划成功率显著下降,并提出了“任务导向上下文认知”方法有效解决该问题,从而提升机器人对非专家用户(如老人和儿童)指令的理解能力。

Chenxi Jiang, Chuhao Zhou, Jianfei Yang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给机器人做一场“阅读理解”的体检,发现了一个大问题:机器人太“死板”,听不懂人类说话里的“潜台词”和“指代词”。

为了让你更容易理解,我们可以把这篇论文拆解成三个部分:问题是什么怎么发现的、以及怎么解决的

1. 核心问题:机器人听不懂“那个”和“它”

想象一下,你正在指挥家里的机器人做家务。

  • 场景一(清晰指令): 你说:“把那个红色的苹果放到桌子上。”
    • 机器人:✅ 没问题,它知道找红色的苹果。
  • 场景二(模糊指令): 你刚和机器人聊了一会儿天,然后说:“把那个拿过来。”或者“把那个重的东西搬走。”
    • 机器人:❌ 懵了。它不知道“那个”是指刚才聊到的苹果,还是指旁边的锅,或者是刚洗好的盘子。

论文发现: 现在的机器人(基于大语言模型)非常擅长处理第一种清晰指令,但一旦人类像平时聊天一样,用“它”、“那个”、“重的东西”这种指代词(Implicit REs),机器人的成功率就会大幅下降,甚至直接搞错任务。

这就好比你在考一个学生,题目写得很清楚,他能做对;但如果你说“把刚才说的那个东西拿来”,他可能就会去拿错东西,因为他没记住上下文,或者把“那个”理解成了别的。

2. 实验过程:给机器人造了一个“模糊语言迷宫”

为了测试机器人到底有多笨,作者们造了一个叫 REI-Bench 的测试场(就像给机器人建了一个专门的“迷宫”)。

  • 造迷宫的方法:
    他们从现有的任务数据里,把原本清晰的词(比如“土豆”)偷偷换成了模糊的词(比如“那个热的”、“它”)。

    • 简单模式: 只有清晰的词。
    • 困难模式: 全是“那个”、“它”,而且对话里还故意加了一些干扰项(比如提到一个叫“玫瑰”的人,其实场景里有个叫“玫瑰”的花,机器人容易搞混)。
    • 地狱模式: 对话很短,信息不全,还要猜“那个”是啥。
  • 测试结果(扎心了):
    当指令变得模糊时,机器人的成功率直接暴跌了 7% 到 37%
    这就好比你让机器人去“把那个热的东西放水槽”,它可能把盘子(也是热的)拿过去,而不是土豆
    原因分析: 机器人太急着去“想下一步该做什么动作”(规划),而忽略了先“搞清楚你在说哪个东西”(理解)。它跳过了理解环节,直接瞎猜。

3. 解决方案:给机器人装个“翻译官”

作者发现,机器人其实有能力理解这些模糊的话(如果你直接问它“那个热的指什么”,它能答对),但在执行任务时,它忘了用这个能力。

于是,他们提出了一个简单又聪明的方法,叫 TOCC(面向任务的语境认知)

  • 以前的做法(机器人自己硬扛):
    人类说:“把那个热的放水槽。” -> 机器人直接思考:“我要拿热的东西……" -> 结果拿错了。
    (就像你直接让一个没带眼镜的人去认路,他容易走错。)

  • TOCC 的做法(先翻译,再执行):
    人类说:“把那个热的放水槽。”

    1. 第一步(翻译官): 机器人先停下来,结合刚才的对话,把这句话“翻译”成清晰版:“哦,‘那个热的’指的是刚才煮好的土豆。所以指令其实是:‘把煮好的土豆放水槽’。”
    2. 第二步(执行者): 机器人拿着这个清晰的指令去执行。
      (这就好比先给机器人戴上了“上下文眼镜”,把模糊的话翻译成大白话,它就能准确执行了。)

4. 总结与意义

  • 为什么这很重要?
    未来的机器人是要服务老人和孩子的。老人和孩子说话往往不严谨,喜欢用“那个”、“这个”、“弄一下”。如果机器人听不懂这些“潜台词”,就永远没法真正融入家庭。
  • 这篇论文的贡献:
    1. 指出了痛点: 第一次系统地告诉我们要关注机器人听不懂“指代词”这个问题。
    2. 提供了考场: 造了一个专门的测试集(REI-Bench),让大家都来测测机器人能不能听懂“人话”。
    3. 给出了药方: 证明了只要让机器人先“想清楚”再“动手”,就能大幅减少错误,而且不需要换更强大的大脑,只需要换个说话(提示)的方式。

一句话总结:
这篇论文告诉我们,让机器人变聪明,不仅仅是让它背更多的单词,而是要教会它像人一样“听弦外之音”。通过加一个“先理解后行动”的小步骤,就能让机器人从“笨手笨脚”变得“心领神会”。