Reinforcement Learning for Self-Improving Agent with Skill Library

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让 AI 智能体（Agent）变得更聪明、更高效的新技术，我们把它称为 SAGE。

为了让你轻松理解，我们可以把 AI 智能体想象成一个刚入职的“超级实习生”，而这项技术就是教他如何**“边干边学，建立自己的技能库”**。

1. 痛点：聪明的实习生，但记性不好

现在的 AI（大语言模型）非常聪明，能处理复杂的任务，比如写代码、查资料、操作软件。但是，它们有一个大毛病：“学一次，忘一次”。

现状：如果你让 AI 今天学会了一个复杂的操作（比如“帮我把所有未读邮件归档并生成报告”），明天换个场景，它可能又得从头开始摸索，甚至把之前的经验忘得一干二净。
旧方法：以前的做法是靠“提示词”（Prompting），就像老板每次都要在便签上写满步骤教实习生。但这很笨拙，实习生（AI）容易理解错，而且每次都要重复读便签，效率极低。

2. 核心概念：建立“技能图书馆”

这篇论文提出，与其每次都重新教，不如让 AI 自己把做过的任务变成“技能”，存进一个**“技能图书馆”**里。

比喻：想象这个实习生不仅会干活，还能把自己做过的复杂操作（比如“一键归档邮件”）写成**“标准作业程序（SOP）”或“宏命令”**，存进书架上。
好处：下次遇到类似任务，他不需要一步步重新思考，直接去书架上拿现成的“技能”用，既快又准。

3. 核心技术：SAGE（技能增强型自我进化）

但是，怎么让 AI 自动学会“写 SOP"并“用好 SOP"呢？这就用到了论文的核心——SAGE。

SAGE 就像是一个**“魔鬼教练”**，它用一种特殊的训练方法（强化学习）来训练这个实习生。它有两个绝招：

绝招一：连环任务训练法（Sequential Rollout）

传统训练：让实习生做一道题，做完就结束。
SAGE 训练：教练会给实习生一连串相似的任务。
- 场景：比如先让他处理“周一的邮件”，再处理“周二的邮件”，最后处理“周三的邮件”。
- 过程：在处理“周一邮件”时，他尝试写了一个“邮件归档技能”存进图书馆。到了“周二邮件”时，教练鼓励他直接调用这个技能，而不是重新写代码。
- 效果：这样，前一个任务产生的“技能”，直接变成了后一个任务的“捷径”。如果后一个任务成功了，教练就会奖励前一个任务（“你写的技能真好用！”）。

绝招二：双重奖励机制（Skill-integrated Reward）

传统奖励：只看结果。任务做完了吗？做完了给 100 分。
SAGE 奖励：不仅看结果，还看过程。
- 奖励 A：任务做成了，给分。
- 奖励 B：如果你成功创建了一个新技能，或者成功调用了一个旧技能来完成任务，额外给分！
- 目的：这迫使 AI 不仅要“做完”，还要学会“如何更高效地做”，主动去积累和复用技能。

4. 训练过程：先模仿，再超越

为了让这个实习生能听懂教练的话，SAGE 分了两步走：

先模仿（SFT）：先用一个更高级的 AI（比如 Claude 3.5）作为“专家”，演示如何写技能、用技能。让实习生先照着学，把基础打牢。
再进化（RL）：在模仿的基础上，用上面的“连环任务”和“双重奖励”进行强化训练，让实习生从“照猫画虎”变成“举一反三”，甚至超越专家。

5. 成果：快、准、省

在真实的测试（AppWorld 数据集，模拟操作各种 APP）中，SAGE 训练出来的 AI 表现惊人：

更聪明：完成任务的成功率提高了近 9%。
更省力：完成任务所需的步骤减少了 26%，生成的文字量（Token）减少了 59%。
- 比喻：以前做一件事要写 1000 字的说明书，现在只需要写 400 字，而且还能直接调用现成的工具包。
更通用：即使遇到没见过的任务，它也能利用图书馆里的技能快速适应。

总结

这篇论文的核心思想就是：不要让 AI 每次都从零开始。

通过 SAGE 框架，我们教会了 AI 像人类专家一样：

总结经验（把操作变成技能存起来）；
举一反三（在相似任务中复用技能）；
自我进化（通过奖励机制，越用越熟练）。

这就好比让一个实习生从“只会听指令的机器人”，进化成了“自带工具箱、能自己发明工具的资深专家”。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Reinforcement Learning for Self-Improving Agent with Skill Library》（基于技能库的自进化强化学习智能体）的详细技术总结。

1. 研究背景与问题 (Problem)

背景：
基于大语言模型（LLM）的智能体在复杂推理和多轮交互中表现出色，但在部署到新环境时，往往难以持续改进和适应。现有的强化学习（RL）方法通常局限于特定的训练场景，缺乏将过往经验转化为可复用技能的能力。

核心痛点：

现有技能库方法的局限性： 虽然引入“技能库（Skill Library）”允许智能体学习、验证和应用新技能，但现有方法主要依赖**LLM 提示（Prompting）**来生成和利用技能。这种方法受限于基础模型的指令遵循能力，导致技能库的质量不稳定，且难以实现一致的自我改进。
RL 训练的局限性： 传统的 RL 训练通常针对单个任务示例，奖励信号仅基于最终结果，无法有效引导智能体在长程任务链中生成高质量的可复用技能，也无法有效利用后续任务的成功来反哺前序任务的技能生成。
效率与泛化问题： 智能体在面对新环境时，难以利用部署期间获得的经验来提升未来任务的成功率，且往往需要大量的交互步骤和 Token 消耗。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 SAGE (Skill Augmented GRPO for self-Evolution)，一种基于强化学习的新型框架，旨在通过技能库增强智能体的自进化能力。

2.1 核心组件

SAGE 框架建立在 CodeAct 框架之上，智能体通过 API 调用与环境交互，并生成可执行的 Python 代码函数作为技能。

统一的任务解决与技能生成格式：
不同于以往在任务完成后才定义技能的方法，SAGE 采用统一格式：智能体在与 API 交互时，首先生成一个技能函数（Function），然后调用该函数处理任务，而不是直接调用多个 API。这统一了任务执行和技能生成的逻辑。
序列展开 (Sequential Rollout)：
这是 SAGE 的关键创新点。
- 机制： 智能体不再针对单个任务进行训练，而是针对**相似任务链（Task Chain）**进行训练。在一个场景（Scenario）中，包含多个相似任务（例如 $q_1, q_2$ ）。
- 流程： 智能体依次处理任务链。在 $q_1$ 中生成的技能会被保存到技能库中，并在处理 $q_2$ 时直接调用。
- 目的： 这种机制允许后续任务的成功（利用技能）将奖励信号反向传播到前序任务的技能生成阶段，从而鼓励生成真正有用且可复用的技能。
技能集成奖励 (Skill-integrated Reward)：
为了引导智能体不仅关注任务完成，还关注技能的质量，作者设计了一种复合奖励函数。对于任务链 $(q_1, q_2)$ ，奖励 $R$ 由两部分组成：
1. 可验证的结果奖励 ( $r$ )： 任务是否成功完成。
2. 技能生成与利用奖励：
  - 如果 $q_1$ 生成了技能，且该技能在 $q_2$ 中被成功利用并帮助 $q_2$ 完成任务，则给予额外奖励。
  - 如果 $q_2$ 成功利用了 $q_1$ 生成的技能，给予额外奖励。
- 惩罚机制： 如果智能体没有生成代码直接终止任务，给予 -1.0 的惩罚。
训练流程：
1. 监督微调 (SFT)： 由于开源模型直接进行 RL 难以遵循复杂的技能库指令，首先使用专家模型（Claude 3.5 Sonnet V2）生成的高质量轨迹对模型进行 SFT。
2. SAGE 强化学习： 基于 SFT 模型，利用 GRPO (Group Relative Policy Optimization) 算法进行训练。在 GRPO 的基础上，将期望计算扩展到任务链上，并使用上述的“技能集成奖励”计算优势函数（Advantage）。

3. 关键贡献 (Key Contributions)

提出了 SAGE 框架： 首个将强化学习（RL）与技能库深度结合，用于智能体自进化的框架。它通过序列展开和技能集成奖励，系统性地解决了技能生成与利用的协同优化问题。
设计了序列展开 (Sequential Rollout) 机制： 打破了传统 RL 单任务训练的局限，通过任务链让智能体在“生成技能”和“使用技能”之间建立因果联系，实现了端到端的技能进化。
创新了奖励函数设计： 提出了“技能集成奖励”，明确奖励那些能够被后续任务复用并促进成功的技能，而不仅仅是任务完成本身。
验证了开源模型的超越能力： 实验证明，经过 SAGE 训练的开源模型（Qwen2.5-32B）在效率和准确率上均超越了专家模型（Claude 3.5）的提示工程方法，以及现有的 RL 基线方法。

4. 实验结果 (Results)

实验在 AppWorld 数据集上进行，该数据集包含 250 个场景，每个场景有 3 个相似任务，非常适合评估技能迁移能力。

主要指标提升 (Test Normal 数据集)：
- 场景目标完成率 (SGC)： SAGE 达到 60.7%，比基线 GRPO (51.8%) 提升了 8.9%。这证明了技能在相似任务间的有效迁移。
- 任务目标完成率 (TGC)： 达到 72.0%，优于基线 GRPO (69.2%)。
- 效率提升：
  - 交互步骤： 平均仅需 12.1 步，比基线 GRPO (16.4 步) 减少了 26%。
  - 生成 Token 数： 平均 1,475 个，比基线 GRPO (3,613 个) 减少了 59%。
消融实验结论：
- SFT 的必要性： 直接对基座模型进行 RL 效果较差，SFT 初始化是达到 SOTA 性能的关键。
- 奖励设计的有效性： 相比仅基于结果的奖励或链式奖励，技能集成奖励显著提高了技能的使用率和任务成功率。
- 任务链长度： 使用 2 个任务的链效果优于 3 个任务，因为过长的链会导致奖励分布不平衡和梯度方差增大。

5. 意义与影响 (Significance)

推动智能体自进化： 该研究证明了通过 RL 结合技能库，智能体可以在部署过程中持续学习并优化自身能力，不再局限于静态的训练数据。
提升效率与降低成本： 通过技能复用，智能体能够用更少的交互步骤和 Token 完成复杂任务，这对于实际部署中的成本和延迟控制至关重要。
解决提示工程的瓶颈： 证明了对于复杂的技能库管理，单纯的 Prompting 无法达到最优效果，基于 RL 的优化方法能挖掘出模型更深层次的推理和规划能力。
开源模型潜力： 展示了经过适当训练（SFT + RL），开源模型（如 Qwen）在特定领域（工具使用、代码生成）可以超越闭源专家模型的表现，为低成本部署高性能智能体提供了新路径。

总结：
SAGE 通过引入序列展开训练和技能集成奖励，成功地将强化学习应用于技能库智能体的自进化过程。它不仅显著提高了任务完成的准确率和场景迁移能力，还大幅降低了计算资源消耗，为构建高效、自适应的下一代 AI 智能体奠定了重要基础。