Reinforcement Learning for Self-Improving Agent with Skill Library

该论文提出了名为 SAGE 的强化学习框架,通过引入序列展开机制和技能集成奖励,使大语言模型智能体能够利用技能库实现自我进化,在 AppWorld 基准测试中显著提升了任务完成率并降低了交互成本。

Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让 AI 智能体(Agent)变得更聪明、更高效的新技术,我们把它称为 SAGE

为了让你轻松理解,我们可以把 AI 智能体想象成一个刚入职的“超级实习生”,而这项技术就是教他如何**“边干边学,建立自己的技能库”**。

1. 痛点:聪明的实习生,但记性不好

现在的 AI(大语言模型)非常聪明,能处理复杂的任务,比如写代码、查资料、操作软件。但是,它们有一个大毛病:“学一次,忘一次”

  • 现状:如果你让 AI 今天学会了一个复杂的操作(比如“帮我把所有未读邮件归档并生成报告”),明天换个场景,它可能又得从头开始摸索,甚至把之前的经验忘得一干二净。
  • 旧方法:以前的做法是靠“提示词”(Prompting),就像老板每次都要在便签上写满步骤教实习生。但这很笨拙,实习生(AI)容易理解错,而且每次都要重复读便签,效率极低。

2. 核心概念:建立“技能图书馆”

这篇论文提出,与其每次都重新教,不如让 AI 自己把做过的任务变成“技能”,存进一个**“技能图书馆”**里。

  • 比喻:想象这个实习生不仅会干活,还能把自己做过的复杂操作(比如“一键归档邮件”)写成**“标准作业程序(SOP)”“宏命令”**,存进书架上。
  • 好处:下次遇到类似任务,他不需要一步步重新思考,直接去书架上拿现成的“技能”用,既快又准。

3. 核心技术:SAGE(技能增强型自我进化)

但是,怎么让 AI 自动学会“写 SOP"并“用好 SOP"呢?这就用到了论文的核心——SAGE

SAGE 就像是一个**“魔鬼教练”**,它用一种特殊的训练方法(强化学习)来训练这个实习生。它有两个绝招:

绝招一:连环任务训练法(Sequential Rollout)

  • 传统训练:让实习生做一道题,做完就结束。
  • SAGE 训练:教练会给实习生一连串相似的任务
    • 场景:比如先让他处理“周一的邮件”,再处理“周二的邮件”,最后处理“周三的邮件”。
    • 过程:在处理“周一邮件”时,他尝试写了一个“邮件归档技能”存进图书馆。到了“周二邮件”时,教练鼓励他直接调用这个技能,而不是重新写代码。
    • 效果:这样,前一个任务产生的“技能”,直接变成了后一个任务的“捷径”。如果后一个任务成功了,教练就会奖励前一个任务(“你写的技能真好用!”)。

绝招二:双重奖励机制(Skill-integrated Reward)

  • 传统奖励:只看结果。任务做完了吗?做完了给 100 分。
  • SAGE 奖励:不仅看结果,还看过程
    • 奖励 A:任务做成了,给分。
    • 奖励 B:如果你成功创建了一个新技能,或者成功调用了一个旧技能来完成任务,额外给分!
    • 目的:这迫使 AI 不仅要“做完”,还要学会“如何更高效地做”,主动去积累和复用技能。

4. 训练过程:先模仿,再超越

为了让这个实习生能听懂教练的话,SAGE 分了两步走:

  1. 先模仿(SFT):先用一个更高级的 AI(比如 Claude 3.5)作为“专家”,演示如何写技能、用技能。让实习生先照着学,把基础打牢。
  2. 再进化(RL):在模仿的基础上,用上面的“连环任务”和“双重奖励”进行强化训练,让实习生从“照猫画虎”变成“举一反三”,甚至超越专家。

5. 成果:快、准、省

在真实的测试(AppWorld 数据集,模拟操作各种 APP)中,SAGE 训练出来的 AI 表现惊人:

  • 更聪明:完成任务的成功率提高了近 9%
  • 更省力:完成任务所需的步骤减少了 26%,生成的文字量(Token)减少了 59%
    • 比喻:以前做一件事要写 1000 字的说明书,现在只需要写 400 字,而且还能直接调用现成的工具包。
  • 更通用:即使遇到没见过的任务,它也能利用图书馆里的技能快速适应。

总结

这篇论文的核心思想就是:不要让 AI 每次都从零开始。

通过 SAGE 框架,我们教会了 AI 像人类专家一样:

  1. 总结经验(把操作变成技能存起来);
  2. 举一反三(在相似任务中复用技能);
  3. 自我进化(通过奖励机制,越用越熟练)。

这就好比让一个实习生从“只会听指令的机器人”,进化成了“自带工具箱、能自己发明工具的资深专家”。