Reward Prediction with Factorized World States

该论文提出了名为 StateFactory 的基于大语言模型的因子化世界状态表示方法,通过将非结构化观测转化为分层对象 - 属性结构,利用语义相似性实现跨领域的零样本奖励预测,从而显著提升了智能体在 AlfWorld 和 ScienceWorld 等任务中的规划成功率。

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让 AI 变得更聪明、更懂“目标”的故事

想象一下,你正在教一个刚出生的机器人宝宝做家务(比如“把热土豆放进橱柜”)。传统的教法是:机器人做对了,你给颗糖(奖励);做错了,你打屁股(惩罚)。但问题是,现实世界太复杂了,你不可能给机器人演示每一件事,而且如果只靠死记硬背(监督学习),换个新环境它可能就傻眼了。

这篇论文提出了一种新方法,叫 StateFactory(状态工厂),并建立了一个新的“考试系统”叫 RewardPrediction(奖励预测)

我们可以用三个生动的比喻来理解它:

1. 核心痛点:为什么以前的 AI 像“死记硬背的学生”?

以前的 AI 就像是一个只会背题的学生。

  • 场景:老师(训练数据)教它“把苹果放进红篮子里”。
  • 问题:如果考试变成了“把苹果放进蓝篮子里”,或者环境里多了一堆乱糟糟的杂物,这个学生就懵了。因为它只记住了“红篮子”和“苹果”这两个词,没理解“把东西放进容器”这个核心逻辑
  • 后果:AI 无法举一反三,换个新任务就失效了。

2. 解决方案:StateFactory(状态工厂)—— 把乱麻理成清单

这篇论文的核心发明叫 StateFactory。它的作用就像是一个超级整理师

  • 以前的观察(乱麻)
    机器人看到的是一堆乱糟糟的文字:“你走进厨房,看到桌子上有个杯子,旁边有个苹果,微波炉是关着的,地上有个香蕉……"
    这就像是一团乱麻,AI 很难从中看出“我离目标还有多远”。

  • StateFactory 的做法(理成清单)
    它利用大语言模型(LLM)把这团乱麻瞬间拆解成一张结构化的清单

    • 物体:杯子(属性:在桌上)、苹果(属性:在桌上)、微波炉(属性:关着)。
    • 目标:把热土豆放进橱柜。

    这就好比把一堆散乱的乐高积木,按照颜色、形状和大小,分门别类地放进了不同的格子里。

3. 如何判断“做得好不好”?(奖励预测)

有了这张清晰的清单,AI 怎么知道自己离目标还有多远呢?

  • 以前的做法:像猜谜一样,直接问 AI:“你觉得你现在做得怎么样?”AI 只能瞎蒙,或者根据以前背过的答案硬套。
  • StateFactory 的做法“找不同”游戏
    它把“现在的清单”和“目标的清单”放在一起比对:
    • 目标说:土豆要在橱柜里。
    • 现状说:土豆在微波炉里。
    • 计算:哎呀,还差一步!奖励给 0.5 分。
    • 下一步:土豆放进橱柜了。
    • 计算:完美匹配!奖励给 1.0 分。

这种方法不需要 AI 背过这个具体的任务,只要它能理解“物体”和“属性”,就能在任何新环境里算出“进度条”走了多少。

4. 新的“考试系统”:RewardPrediction

为了证明这个方法真的有效,作者们搞了一个超级大考,叫 RewardPrediction

  • 考场:涵盖了 5 种完全不同的场景(像家里做家务、做科学实验、玩文字游戏、逛淘宝网站、搭积木)。
  • 考题:2454 个不同的任务,每个任务都有详细的“标准答案”(每一步该得多少分)。
  • 成绩
    • 以前的 AI(死记硬背型):换个考场就挂科,错误率飙升。
    • StateFactory(理解型):即使没学过这个具体任务,也能考出接近满分的成绩!它的错误率比第二名低了 60% 以上。

5. 最终效果:从“瞎撞”到“导航”

最厉害的是,当把这个“奖励预测”装进 AI 的脑子里后,AI 的规划能力突飞猛进:

  • 以前:AI 像无头苍蝇,撞了南墙再回头,成功率很低。
  • 现在:AI 像装了GPS 导航。每一步它都知道:“往左走离目标近了 10%,往右走远了 5%"。
  • 结果:在“做家务”任务中,成功率提升了 21%;在“科学实验”任务中,提升了 12%

总结

这篇论文就像给 AI 发了一本**“万能地图”
它不再让 AI 死记硬背每一条路,而是教它如何
看清周围的环境(提取状态),如何理解要去哪里(解析目标),以及如何实时计算距离(预测奖励)**。

这样一来,无论把 AI 扔到哪个陌生的世界(无论是虚拟的网页,还是真实的厨房),它都能迅速理清头绪,找到通往目标的最短路径,不再需要人类手把手教它每一个步骤。这就是**“通用智能”**迈出的重要一步。