EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning

本文提出了 EXPLORE-Bench 基准,旨在评估多模态大语言模型在从第一人称视角预测长序列动作后的最终场景方面的能力,揭示了当前模型在长程推理上与人类存在的显著差距,并验证了通过逐步推理分解任务虽能提升性能但会带来计算开销。

Chengjun Yu, Xuhan Zhu, Chaoqun Du, Pengfei Yu, Wei Zhai, Yang Cao, Zheng-Jun Zha

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EXPLORE-Bench 的新工具,它就像是一个给“人工智能机器人”准备的高难度“未来预测”考试

为了让你更容易理解,我们可以把这篇论文的核心内容想象成这样一个故事:

1. 核心任务:玩一场“头脑风暴”的连连看

想象一下,你戴着一个第一人称视角的摄像头(就像《头号玩家》里的主角),手里拿着一张初始照片(比如:桌上有一个完整的鸡蛋和一个空碗)。

然后,你收到了一长串动作指令,比如:

  1. 拿起鸡蛋。
  2. 在碗边敲一下。
  3. 把蛋壳剥开。
  4. 把蛋液倒进碗里。
  5. 把蛋壳扔进垃圾桶。
  6. ...(中间可能还有几十甚至几百个步骤,比如洗勺子、擦桌子、开火等等)。

现在的挑战是:当所有动作都做完后,桌子最后会变成什么样

  • 碗里是完整的蛋还是打散的蛋液?
  • 垃圾桶里有没有蛋壳?
  • 桌子是干净了还是弄脏了?

这就是论文提出的新任务:“第一人称视角的长程场景预测”。它要求 AI 不仅要“看”到现在的画面,还要在脑子里“模拟”这一连串动作发生后的最终结果

2. 为什么要搞这个考试?(痛点在哪里)

以前的 AI 考试,大多只问“下一步做什么?”或者“刚才发生了什么?”。这就像只让 AI 做“填空题”。

但真正的机器人(比如家里的保姆机器人)需要的是**“推演能力”**。

  • 比喻:如果你只告诉机器人“把书从书架上拿下来”,它可能不知道如果你把最下面的书抽走,上面的书可能会倒塌砸坏地板。
  • 现状:论文发现,现在的顶级 AI(包括那些很聪明的“思考型”大模型),在面对这种长链条、多步骤的因果推演时,表现得很糟糕。它们经常“记不住”前面的步骤,或者忽略了物理常识(比如水会流出来、东西会掉下来)。

3. 这个“考场”(EXPLORE-Bench)有什么特别?

以前的考试要么太短(只有一两个动作),要么太模糊(只让你选 A/B/C/D)。EXPLORE-Bench 做了三件大事:

  1. 题目超长:平均每个题目包含 113 个 原子动作(比如“拿起”、“放下”、“旋转”)。最长的题目甚至有 694 个步骤!这就像让 AI 看完一部 30 分钟的烹饪视频,然后描述最后厨房的样子。
  2. 答案超细:以前 AI 只要说“桌子乱了”就算对。现在,专家给标准答案打上了精细的标签
    • 物体:桌上有几个碗?
    • 属性:碗是满的还是空的?颜色变了吗?
    • 关系:勺子是在碗里,还是在桌子上?
    • 这就像不仅要看 AI 猜没猜对结局,还要看它有没有注意到“鸡蛋壳碎成了三块”这种细节。
  3. 包含“意外”考题:除了正常的做饭,他们还特意收集了一些**“翻车现场”(比如水龙头没关、东西打翻了)。这是为了测试 AI 能不能发现安全隐患**。

4. 考试结果:AI 还是“小学生”水平

论文对几十种目前最厉害的 AI 模型进行了测试,结果令人咋舌:

  • 人类 vs AI:人类参与者在这个任务上表现很好(虽然也不是满分),但AI 的得分远低于人类
  • 长链条崩溃:动作步骤越多,AI 越容易“断片”。它们往往只记得开头和结尾,中间的过程全忘了。
  • 安全盲区:在那些涉及“危险”或“异常”的场景(比如水龙头一直流水),很多 AI 甚至完全没看出来,还在描述一个“整洁有序”的厨房。
  • 思考型模型也没用:有些 AI 被设计成会“先思考再回答”(Chain of Thought),但在处理这种超长的物理推演时,它们并没有比普通模型强多少,反而有时候因为想太多而更乱。

5. 有什么解决办法吗?(“切香肠”法)

研究人员尝试了一种方法:把长任务切碎了做

  • 比喻:与其让 AI 一口气看完 100 步并预测结果,不如让它每走 10 步就停下来,描述一下现在的状态,然后再继续走下一步。
  • 效果:这种方法确实让 AI 的分数提高了一点,就像把大难题拆成了小作业。
  • 代价:但这非常耗时耗力。AI 需要反复推理,计算成本大大增加,而且提升幅度有限,还没达到人类水平。

总结

这篇论文就像给现在的 AI 界泼了一盆冷水,但也指明了方向:
目前的 AI 虽然能聊天、能画图,但在理解物理世界、预测长序列动作后果方面,还非常笨拙。它们就像是一个只会背台词但不懂逻辑的演员,一旦剧情变长、变复杂,或者出现意外,它们就不知道该怎么演了。

EXPLORE-Bench 就是为了解决这个问题而生的“磨刀石”,它告诉我们要造出真正能帮人类干活的机器人,首先得让 AI 学会**“想清楚做完这件事后,世界会变成什么样”**。