Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EMPO2 的新方法，旨在解决大型语言模型（LLM）智能体在面对新环境时“不敢尝试”或“不知道如何尝试”的难题。

为了让你轻松理解，我们可以把训练一个 AI 智能体想象成教一个刚毕业的大学生去一家陌生的公司实习。

1. 核心问题：为什么现在的 AI 容易“死胡同”？

现状：
现在的 AI 智能体（比如基于 GRPO 算法的）就像是一个死记硬背但缺乏变通的学生。

它读过很多书（预训练知识），知道很多通用道理。
但在面对具体任务（比如“在实验室里点亮红灯泡”）时，如果它发现红灯泡不在眼前，它往往会固执地重复错误动作（比如对着空气喊“我要聚焦红灯泡”），而不是去隔壁房间找找看。
它太依赖“已知”的知识，缺乏探索（Exploration）的勇气。一旦遇到没见过的情况，它就卡住了，因为它的“大脑参数”（模型权重）还没学会如何处理这种新情况。

比喻：
这就好比一个司机只会开自己熟悉的路线。一旦导航说“前方修路，请绕行”，他要么原地发呆，要么继续撞墙，因为他没有“探索新路线”的机制。

2. 解决方案：EMPO2 的“双管齐下”策略

EMPO2 提出了一套混合训练法，核心在于**“记忆”和“双模式优化”。我们可以把它想象成给这个实习生配了一位“随身导师”和一套“反思日记”**。

A. 引入“外部记忆”（非参数化更新）

做法：当 AI 尝试失败时，它不会只得到一个冷冰冰的“错误”信号。相反，它会生成一条**“经验提示（Tip）”，记在一个外部笔记本**（记忆库）里。
比喻：
- 实习生第一次在走廊找红灯泡失败，他在笔记本上写下：“刚才在走廊没找到灯，下次记得先去隔壁车间看看。”
- 下次再遇到类似任务，AI 会先翻阅这个笔记本，看到提示：“嘿，记得去车间找灯！”
- 这就像给 AI 开了“上帝视角”的备忘录，让它能利用过去的失败经验来指导现在的行动，而不用立刻修改它的大脑（模型参数）。

B. 混合优化：既学“怎么做”，又学“怎么想”（参数化 + 非参数化）

这是 EMPO2 最巧妙的地方，它把训练分成了两个阶段，像是一个**“实战演练”和“复盘总结”**的循环：

实战演练（Rollout）：
- 模式一（无记忆）：让 AI 凭自己的本事（模型参数）去尝试。这能锻炼它独立解决问题的能力。
- 模式二（有记忆）：让 AI 带着“笔记本”（记忆提示）去尝试。这能帮它快速找到新路径，避免重复犯错。
复盘总结（Update）：
- 在线学习（On-Policy）：如果 AI 带着笔记本成功了，我们不仅奖励它，还让它记住“带着笔记本思考”的感觉。
- 离线学习（Off-Policy）：这是 EMPO2 的杀手锏。
  - 比喻：想象 AI 在“带着笔记本”的情况下成功完成了任务（这是老师/导师的示范）。但在更新大脑时，我们把笔记本拿掉，问 AI：“如果没有这个提示，你当时是怎么想到那个动作的？”
  - 然后，我们强行让 AI 的大脑（参数）去模仿那个成功的动作，仿佛它天生就知道该怎么做，而不需要依赖笔记本。
  - 结果：经过多次这样的“去笔记本化”训练，AI 最终把“去车间找灯”这个探索能力内化到了自己的大脑里。以后即使没有笔记本，它也能自动想到去车间。

3. 实验效果：它有多强？

论文在两个著名的测试场（ScienceWorld 和 WebShop）进行了测试：

ScienceWorld（科学实验模拟）：
- 旧方法（GRPO）：像是一个在迷宫里乱撞的人，撞墙了就停在那，最后只得了 33 分。
- EMPO2：像是一个带着地图且会反思的探险家。它利用记忆发现新路径，最后把分数提升到了 76 分（提升了 128%！）。
- 关键点：当面对完全没见过的任务（比如从“生物题”突然变成“电路题”）时，EMPO2 只需要几次尝试，看看笔记本，就能迅速适应，而旧方法则完全懵圈。
WebShop（网购模拟）：
- 在复杂的网购环境中，EMPO2 同样击败了所有对手，成功率和得分都是最高的。

4. 总结：为什么这很重要？

以前的 AI 就像**“书呆子”，只会在熟悉的范围内打转。
EMPO2 让 AI 变成了“探险家”**：

敢于试错：通过“记忆”记录失败，避免重蹈覆辙。
善于内化：通过“去记忆化”的训练，把探索的经验真正变成自己的本能。
适应性强：哪怕到了完全陌生的环境，它也能利用这种“探索本能”快速上手。

一句话总结：
EMPO2 给 AI 配了一本“错题集”和一位“反思导师”，不仅教它怎么利用错题集快速解题，更通过反复训练，让它把解题思路刻进脑子里，最终成为一个既聪明又爱探索、能举一反三的超级智能体。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：EMPO2 (Exploratory Memory-Augmented On- and Off-Policy Optimization)

1. 研究背景与问题 (Problem)

大型语言模型（LLM）智能体在结合强化学习（RL）进行推理、规划和与环境交互时，面临一个核心瓶颈：探索能力不足。

现状：现有的 LLM 智能体主要依赖预训练知识进行“利用”（Exploitation），而在需要发现新状态或主动获取新信息的复杂环境中（如 ScienceWorld 和 WebShop），它们往往陷入局部最优或无法完成任务。
局限性：
- 传统的在线 RL 方法（如 GRPO）缺乏内在的探索机制，容易在遇到未知状态时停滞不前。
- 现有的非参数化记忆方法（如 Reflexion）虽然能通过外部记忆纠正错误，但由于模型参数固定，无法将经验内化为长期能力，导致性能很快饱和，泛化性差。
核心挑战：如何在在线强化学习中，既利用外部记忆进行高效探索，又能将探索获得的知识有效地内化到模型参数中，从而在不依赖记忆的情况下也能表现出鲁棒性。

2. 方法论 (Methodology)

作者提出了 EMPO2（Exploratory Memory-Augmented On- and Off-Policy Optimization），这是一个混合强化学习框架，旨在通过联合更新参数化策略（模型权重）和非参数化记忆模块来解决上述问题。

核心机制

EMPO2 在** rollout（ rollout 阶段）和update（更新阶段）**分别设计了两种模式，通过组合形成三种混合学习模式：

A. Rollout 阶段（数据生成）

智能体以概率 $p$ 选择以下两种模式之一生成轨迹：

无记忆提示 (Prompting Without Memory)：仅基于当前状态 $s_t$ 和任务 $u$ 生成动作。
记忆增强提示 (Memory-Augmented Prompting)：从外部记忆库 $M$ 中检索与当前状态相关的“提示（Tips）”，结合提示生成动作。这些 Tips 是智能体基于自身过去的失败或成功经验生成的反思性总结（Self-generated Tips）。

B. Update 阶段（策略优化）

对于通过“记忆增强提示”生成的轨迹，EMPO2 采用两种更新策略（以概率 $q$ 选择）：

On-Policy 更新 (On-Policy Updates)：
- 使用与 rollout 时相同的提示条件（包含 Tips）。
- 直接优化策略 $\pi_\theta(\cdot | s, u, \text{tips})$ ，强化带有指导信息的策略。
Off-Policy 更新 (Off-Policy Updates)：
- 关键创新：在计算损失函数时，移除 Tips 条件。
- 将带有 Tips 的轨迹视为“教师演示”，而将仅基于 $(s, u)$ 的策略视为“学生”。
- 利用优势函数（Advantage）进行奖励引导的知识蒸馏：高回报的轨迹被强化，低回报的被抑制。
- 目的：迫使模型将外部记忆中的指导信息“内化”到参数中，使得模型在推理时（Inference）即使没有 Tips 也能表现出探索能力。

C. 辅助技术

内在奖励 (Intrinsic Rewards)：引入基于状态新颖性的内在奖励，鼓励智能体探索未见过的状态，防止策略坍塌。
训练稳定性机制：
- Masking：对低概率 Token 的 Advantage 项进行屏蔽，防止梯度爆炸（解决 Off-policy 训练不稳定的问题）。
- KL 约束：保持策略与参考策略的接近度。

3. 关键贡献 (Key Contributions)

统一框架：提出了首个将非参数化记忆更新与参数化 RL 更新（On-policy 和 Off-policy）紧密结合的框架，解决了记忆方法难以内化知识的问题。
混合优化策略：设计了独特的 Off-policy 更新模式，将外部记忆作为中间脚手架（Scaffolding），通过知识蒸馏将探索能力固化到模型参数中。
自我生成的记忆：Tips 由策略模型自身生成（基于反思），而非依赖外部规则或人工标注，实现了自主进化。
解决探索瓶颈：有效解决了 LLM 智能体在复杂环境中因缺乏探索而导致的性能停滞问题。

4. 实验结果 (Results)

实验在 ScienceWorld（科学实验模拟）和 WebShop（电商购物）两个基准测试上进行，基线模型为 Qwen2.5-7B-Instruct。

在分布内 (In-Distribution) 性能：
- ScienceWorld：EMPO2 相比强基线 GRPO 提升了 128.6%。在多个初始得分为负的任务中，EMPO2 成功达到满分（100 分），而 GRPO 往往收敛于次优解。
- WebShop：相比 GRPO 提升了 11.3%，并优于其他在线 RL 方法（如 GiGPO）和离线 RL 方法（如 Retrospex）。
分布外 (Out-of-Distribution, OOD) 泛化性：
- 在未见过的任务中，EMPO2 仅需少量试错（Few-shot）并启用记忆即可快速适应，且无需更新参数。
- 相比之下，GRPO 在新任务上表现波动大，甚至不如基础模型。
消融实验：
- 移除 Off-policy 更新或 On-policy 记忆更新均会导致性能下降，证明了三种模式（无记忆 On-policy、有记忆 On-policy、Off-policy）互补的必要性。
- 内在奖励对于维持策略熵和防止探索不足至关重要。

5. 意义与影响 (Significance)

提升智能体适应性：EMPO2 证明了通过结合外部记忆和参数内化，可以显著提升 LLM 智能体在未知环境中的适应能力和泛化性。
高效探索：该方法为在线 RL 提供了一种高效的探索机制，使得智能体能够主动发现新状态并内化经验，而非仅仅依赖预训练知识。
未来方向：该框架为构建更具通用性（Generalizable）和自主进化能力的具身智能体（Embodied Agents）提供了新的范式，未来可应用于数学推理、代码生成及多模态任务等领域。
效率与成本：虽然引入了记忆检索和生成带来的额外计算开销（约占总 rollout 时间的 19%），但通过内化学习，最终模型在推理阶段无需记忆即可保持高性能，长期来看提升了效率。

总结：EMPO2 通过巧妙的“记忆辅助探索 + 知识蒸馏内化”机制，成功打破了 LLM 智能体在强化学习中的探索瓶颈，实现了从“依赖记忆”到“内化能力”的跨越，显著提升了智能体在复杂动态环境中的表现。

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization