Reinforcement Learning for Self-Improving Agent with Skill Library

本論文は、大規模言語モデルエージェントの継続的な自己改善を可能にするため、タスク連鎖を通じてスキルを蓄積・活用し、報酬設計を強化する強化学習フレームワーク「SAGE」を提案し、AppWorld における実験で既存手法を上回る精度と効率を達成したことを報告しています。

Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI 助手が、失敗や成功から学び、自分専用の『スキル集(レシピ本)』を作りながら、どんどん賢くなっていく仕組み」**について書かれたものです。

従来の AI は、新しい環境に放り込まれると「前と同じようにやればいい」という記憶がなくて、毎回ゼロから考え直して失敗したり、無駄な動きをしたりすることがありました。この論文では、それを解決するために**「SAGE(セージ)」**という新しいトレーニング方法を提案しています。

まるで**「料理の修行」「職人の徒弟制度」**のようなイメージで説明してみましょう。


🍳 料理人の修行:SAGE の仕組み

1. 従来の AI の問題点:「その場限りの天才」

これまでの AI は、料理人(エージェント)に「パスタを作って」と言われると、その場ですべての工程(麺を茹でる、ソースを作る、盛り付ける)をゼロから考えます。
もし「パスタ」の次に「リゾット」を頼まれたら、また最初から全部考え直さなければなりません。
さらに、もし「パスタ」を作る過程で「お湯を沸かす」のが上手だったとしても、そのノウハウは次の「リゾット」には引き継がれません。毎回、同じ失敗を繰り返したり、無駄な動きをしたりするのです。

2. SAGE のアイデア:「自分だけのレシピ本(スキルライブラリ)」

SAGE は、AI に**「スキル(得意技)」という形でお宝を蓄えさせることを目指します。
例えば、「お湯を沸かす」「野菜を切る」といった基本的な動作を、AI 自身が
「関数(レシピ)」として書き留め、「スキル集(レシピ本)」**に保存します。
次に似たような料理(タスク)を頼まれたとき、AI はゼロから考えずに、この「スキル集」から必要なレシピを呼び出して使えばいいのです。

3. 魔法のトレーニング方法:「連続クエスト(Sequential Rollout)」

ここで重要なのが、AI をどうやって訓練するかという点です。
普通のトレーニングは、「1 問解いて、正解か不正解か」で評価します。でも、SAGE は**「連続した 2 つのクエスト」**をセットで与えます。

  • 第 1 問(パスタ): AI は「お湯を沸かす」スキルを自分で作って、パスタを作ります。
  • 第 2 問(リゾット): すぐに次のリゾットを作らされます。ここで AI は、**「さっき作った『お湯を沸かす』スキルを使えるか?」**を試されます。

もし第 2 問で「さっきのスキル」を使って成功したら、AI は**「あ、あのスキルを作ったおかげで成功したんだ!」と学びます。
逆に、もしスキルを作らなかったり、間違った使い方をしたりすると、その失敗が第 2 問の結果に響いて、AI は「次はちゃんとスキルを作ろう」と学習します。
このように、
「前の行動が、後の結果にどう影響するか」**を直接学習させることで、AI は「スキルを作る重要性」を深く理解するようになります。

4. 報酬の工夫:「スキルそのものへのボーナス」

ただ「料理が完成したか(正解)」だけでなく、**「上手なレシピ(スキル)を作ったか」「そのレシピをうまく使えたか」**にもポイントを与えます。

  • スキル生成ボーナス: 前回のタスクで良いレシピを作ったことへのご褒美。
  • スキル活用ボーナス: 今回のタスクで、そのレシピをうまく使って成功したことへのご褒美。

これにより、AI は「とりあえず正解すればいい」ではなく、「将来使える便利なスキルを蓄えて、効率よく正解しよう」という動機付けを得ます。


🚀 どれくらいすごいのか?(実験結果)

この「SAGE」を使って、AI(Qwen2.5 というモデル)を AppWorld という複雑なアプリ操作のテストで訓練したところ、驚くべき結果が出ました。

  • 成功率の向上: 従来の方法より約 9% 高い成功率を達成。
  • 効率化: 必要な手順(ステップ数)が26% 減、生成したテキスト量(トークン数)が59% 減
    • 例えるなら、**「同じ料理を、材料を半分以下で、半分以下の時間で、より美味しく作れるようになった」**ということです。
  • スキル活用の妙: 学習したスキルを使うと、成功する確率が2 倍以上に跳ね上がりました。

💡 まとめ

この論文が伝えているのは、**「AI に『経験』を『スキル』として変換させ、それを次の課題で使えるようにする」**ことが、AI を真に賢くする鍵だということです。

SAGE は、AI が単に「正解を覚える」のではなく、**「どうすれば次も楽に正解できるか(スキルを作る)」**を考えさせることで、人間のように「経験則」を身につけ、新しい環境でも柔軟に活躍できる「自己進化型 AI」への道を開いたのです。

まるで、**「料理人(AI)が、毎日新しいレシピ本(スキル集)を書き足しながら、段々とお店の看板料理人になっていく」**ようなイメージです。