REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给机器人做一场“阅读理解”的体检，发现了一个大问题：机器人太“死板”，听不懂人类说话里的“潜台词”和“指代词”。

为了让你更容易理解，我们可以把这篇论文拆解成三个部分：问题是什么、怎么发现的、以及怎么解决的。

想象一下，你正在指挥家里的机器人做家务。

场景一（清晰指令）： 你说：“把那个红色的苹果放到桌子上。”
- 机器人：✅ 没问题，它知道找红色的苹果。
场景二（模糊指令）： 你刚和机器人聊了一会儿天，然后说：“把那个拿过来。”或者“把那个重的东西搬走。”
- 机器人：❌ 懵了。它不知道“那个”是指刚才聊到的苹果，还是指旁边的锅，或者是刚洗好的盘子。

论文发现： 现在的机器人（基于大语言模型）非常擅长处理第一种清晰指令，但一旦人类像平时聊天一样，用“它”、“那个”、“重的东西”这种指代词（Implicit REs），机器人的成功率就会大幅下降，甚至直接搞错任务。

这就好比你在考一个学生，题目写得很清楚，他能做对；但如果你说“把刚才说的那个东西拿来”，他可能就会去拿错东西，因为他没记住上下文，或者把“那个”理解成了别的。

为了测试机器人到底有多笨，作者们造了一个叫 REI-Bench 的测试场（就像给机器人建了一个专门的“迷宫”）。

造迷宫的方法：
他们从现有的任务数据里，把原本清晰的词（比如“土豆”）偷偷换成了模糊的词（比如“那个热的”、“它”）。
- 简单模式： 只有清晰的词。
- 困难模式： 全是“那个”、“它”，而且对话里还故意加了一些干扰项（比如提到一个叫“玫瑰”的人，其实场景里有个叫“玫瑰”的花，机器人容易搞混）。
- 地狱模式： 对话很短，信息不全，还要猜“那个”是啥。
测试结果（扎心了）：
当指令变得模糊时，机器人的成功率直接暴跌了 7% 到 37%。
这就好比你让机器人去“把那个热的东西放水槽”，它可能把盘子（也是热的）拿过去，而不是土豆。
原因分析： 机器人太急着去“想下一步该做什么动作”（规划），而忽略了先“搞清楚你在说哪个东西”（理解）。它跳过了理解环节，直接瞎猜。

作者发现，机器人其实有能力理解这些模糊的话（如果你直接问它“那个热的指什么”，它能答对），但在执行任务时，它忘了用这个能力。

于是，他们提出了一个简单又聪明的方法，叫 TOCC（面向任务的语境认知）。

以前的做法（机器人自己硬扛）：
人类说：“把那个热的放水槽。” -> 机器人直接思考：“我要拿热的东西……" -> 结果拿错了。
(就像你直接让一个没带眼镜的人去认路，他容易走错。)
TOCC 的做法（先翻译，再执行）：
人类说：“把那个热的放水槽。”
1. 第一步（翻译官）： 机器人先停下来，结合刚才的对话，把这句话“翻译”成清晰版：“哦，‘那个热的’指的是刚才煮好的土豆。所以指令其实是：‘把煮好的土豆放水槽’。”
2. 第二步（执行者）： 机器人拿着这个清晰的指令去执行。
  (这就好比先给机器人戴上了“上下文眼镜”，把模糊的话翻译成大白话，它就能准确执行了。)

为什么这很重要？
未来的机器人是要服务老人和孩子的。老人和孩子说话往往不严谨，喜欢用“那个”、“这个”、“弄一下”。如果机器人听不懂这些“潜台词”，就永远没法真正融入家庭。
这篇论文的贡献：
1. 指出了痛点： 第一次系统地告诉我们要关注机器人听不懂“指代词”这个问题。
2. 提供了考场： 造了一个专门的测试集（REI-Bench），让大家都来测测机器人能不能听懂“人话”。
3. 给出了药方： 证明了只要让机器人先“想清楚”再“动手”，就能大幅减少错误，而且不需要换更强大的大脑，只需要换个说话（提示）的方式。

一句话总结：
这篇论文告诉我们，让机器人变聪明，不仅仅是让它背更多的单词，而是要教会它像人一样“听弦外之音”。通过加一个“先理解后行动”的小步骤，就能让机器人从“笨手笨脚”变得“心领神会”。

类似论文