Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

本文提出了混合在线与离线策略优化的记忆增强强化学习框架 EMPO2^2,通过利用记忆机制有效解决了大语言模型智能体在探索新状态时的瓶颈,并在 ScienceWorld 和 WebShop 等基准测试中显著提升了性能及泛化能力。

Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EMPO2 的新方法,旨在解决大型语言模型(LLM)智能体在面对新环境时“不敢尝试”或“不知道如何尝试”的难题。

为了让你轻松理解,我们可以把训练一个 AI 智能体想象成教一个刚毕业的大学生去一家陌生的公司实习

1. 核心问题:为什么现在的 AI 容易“死胡同”?

现状
现在的 AI 智能体(比如基于 GRPO 算法的)就像是一个死记硬背但缺乏变通的学生

  • 它读过很多书(预训练知识),知道很多通用道理。
  • 但在面对具体任务(比如“在实验室里点亮红灯泡”)时,如果它发现红灯泡不在眼前,它往往会固执地重复错误动作(比如对着空气喊“我要聚焦红灯泡”),而不是去隔壁房间找找看。
  • 它太依赖“已知”的知识,缺乏探索(Exploration)的勇气。一旦遇到没见过的情况,它就卡住了,因为它的“大脑参数”(模型权重)还没学会如何处理这种新情况。

比喻
这就好比一个司机只会开自己熟悉的路线。一旦导航说“前方修路,请绕行”,他要么原地发呆,要么继续撞墙,因为他没有“探索新路线”的机制。

2. 解决方案:EMPO2 的“双管齐下”策略

EMPO2 提出了一套混合训练法,核心在于**“记忆”“双模式优化”。我们可以把它想象成给这个实习生配了一位“随身导师”和一套“反思日记”**。

A. 引入“外部记忆”(非参数化更新)

  • 做法:当 AI 尝试失败时,它不会只得到一个冷冰冰的“错误”信号。相反,它会生成一条**“经验提示(Tip)”,记在一个外部笔记本**(记忆库)里。
  • 比喻
    • 实习生第一次在走廊找红灯泡失败,他在笔记本上写下:“刚才在走廊没找到灯,下次记得先去隔壁车间看看。”
    • 下次再遇到类似任务,AI 会先翻阅这个笔记本,看到提示:“嘿,记得去车间找灯!”
    • 这就像给 AI 开了“上帝视角”的备忘录,让它能利用过去的失败经验来指导现在的行动,而不用立刻修改它的大脑(模型参数)。

B. 混合优化:既学“怎么做”,又学“怎么想”(参数化 + 非参数化)

这是 EMPO2 最巧妙的地方,它把训练分成了两个阶段,像是一个**“实战演练”“复盘总结”**的循环:

  1. 实战演练(Rollout)

    • 模式一(无记忆):让 AI 凭自己的本事(模型参数)去尝试。这能锻炼它独立解决问题的能力。
    • 模式二(有记忆):让 AI 带着“笔记本”(记忆提示)去尝试。这能帮它快速找到新路径,避免重复犯错。
  2. 复盘总结(Update)

    • 在线学习(On-Policy):如果 AI 带着笔记本成功了,我们不仅奖励它,还让它记住“带着笔记本思考”的感觉
    • 离线学习(Off-Policy):这是 EMPO2 的杀手锏
      • 比喻:想象 AI 在“带着笔记本”的情况下成功完成了任务(这是老师/导师的示范)。但在更新大脑时,我们把笔记本拿掉,问 AI:“如果没有这个提示,你当时是怎么想到那个动作的?”
      • 然后,我们强行让 AI 的大脑(参数)去模仿那个成功的动作,仿佛它天生就知道该怎么做,而不需要依赖笔记本。
      • 结果:经过多次这样的“去笔记本化”训练,AI 最终把“去车间找灯”这个探索能力内化到了自己的大脑里。以后即使没有笔记本,它也能自动想到去车间。

3. 实验效果:它有多强?

论文在两个著名的测试场(ScienceWorld 和 WebShop)进行了测试:

  • ScienceWorld(科学实验模拟)

    • 旧方法(GRPO):像是一个在迷宫里乱撞的人,撞墙了就停在那,最后只得了 33 分。
    • EMPO2:像是一个带着地图且会反思的探险家。它利用记忆发现新路径,最后把分数提升到了 76 分(提升了 128%!)。
    • 关键点:当面对完全没见过的任务(比如从“生物题”突然变成“电路题”)时,EMPO2 只需要几次尝试,看看笔记本,就能迅速适应,而旧方法则完全懵圈。
  • WebShop(网购模拟)

    • 在复杂的网购环境中,EMPO2 同样击败了所有对手,成功率和得分都是最高的。

4. 总结:为什么这很重要?

以前的 AI 就像**“书呆子”,只会在熟悉的范围内打转。
EMPO2 让 AI 变成了
“探险家”**:

  1. 敢于试错:通过“记忆”记录失败,避免重蹈覆辙。
  2. 善于内化:通过“去记忆化”的训练,把探索的经验真正变成自己的本能。
  3. 适应性强:哪怕到了完全陌生的环境,它也能利用这种“探索本能”快速上手。

一句话总结
EMPO2 给 AI 配了一本“错题集”和一位“反思导师”,不仅教它怎么利用错题集快速解题,更通过反复训练,让它把解题思路刻进脑子里,最终成为一个既聪明又爱探索、能举一反三的超级智能体。