Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han

公開日 Tue, 10 Ma

📖 1 分で読めます☕ さくっと読める

閲覧： arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI アシスタント（エージェント）をどうやってもっと賢く、実用的に成長させるか」**というテーマについて、最新の研究を整理した「総説（サマリー）」です。

AI が単に「質問に答える」だけでなく、「検索したり、コードを書いたり、記憶したりする」ことができるようになった今、どうすればさらに進化させられるのか？その答えを**「4 つの異なるアプローチ（パラダイム）」**という枠組みで説明しています。

まるで**「天才的な料理人（AI）」**を育てるための方法論として、以下の 4 つの戦略に分けて解説します。

🍳 料理人（AI）をどう育てる？4 つの戦略

この論文は、AI を「料理人（エージェント）」、そして「包丁やオーブンなどの道具（ツール）」と「レシピ本や記憶（スキル・メモリ）」に分けて考えます。

1. A1：道具の使い方を「実行結果」で教える

（例：「包丁で切った野菜が綺麗か？」で褒める）

仕組み: AI が道具（検索エンジンやコード実行など）を使ってみて、その結果が正しければ「正解！」と即座に褒めます。
メリット: 「どうすれば成功するか」という具体的なコツがすぐに身につきます。
デメリット: 「全体として美味しい料理ができたか」までは見ていないので、細部は完璧でも、全体のバランスが悪いかもしれません。
イメージ: 料理の練習で、「卵を割った瞬間に殻が混じらなかったら OK」というように、動作一つ一つに対してフィードバックを与える方法です。

2. A2：料理の「完成品」で教える

（例：「この料理、美味しい？」で褒める）

仕組み: AI が道具を使いながら最終的に出した答え（料理）全体を見て、「正解なら大褒め！」とします。
メリット: 「いつ道具を使うか」「どう組み合わせるか」という戦略や判断力が身につきます。
デメリット: 「なぜ失敗したのか？」がどこにあるか分かりにくく、学習に時間とデータがたくさん必要になります。
イメージ: 料理人が包丁を振るう過程は気にせず、**「出来上がったシチューが美味しければ OK」**という、結果重視の方法です。

3. T1：道具そのものを「汎用化」して準備する

（例：「プロの包丁職人が作った最高級の包丁」を渡す）

仕組み: AI（料理人）は変えずに、道具（ツール）そのものを事前に訓練して高性能化します。
メリット: 道具が良ければ、どんな料理人も使いやすくなります。コストも安く済みます。
デメリット: 道具が「特定の料理人」に最適化されていないため、相性が悪い場合もあります。
イメージ: 料理人自身は変えずに、**「誰でも使える高機能な包丁」**を事前に作っておく方法です。

4. T2：道具を「料理人のために」カスタマイズする

（例：「この料理人の癖に合わせた特製包丁」を作る）

仕組み: AI（料理人）は変えずに、その料理人が使いやすいように道具を調整します。
メリット: 料理人の癖（思考パターン）にぴったり合うため、少ないデータでも劇的に性能が上がります。
デメリット: その料理人専用なので、他の料理人には使えません。
イメージ: **「この料理人の手元に合うように、包丁の重さや持ち手を調整する」**方法です。

🧠 記憶とスキル：AI の「経験」をどう蓄える？

AI が成長するためには、単に頭（モデル）を変えるだけでなく、**「記憶（メモ）」と「スキル（得意技）」**も重要です。

記憶（Memory）: 過去の失敗や成功を「ノート」に書き留めておく機能です。
- これをT2のように「料理人のフィードバックで自動更新されるノート」にすると、同じ失敗を繰り返さなくなります。
スキル（Skills）: 「野菜の切り方」や「ソースの作り方」のような再利用可能な手順です。
- これをT1のように「誰でも使えるマニュアル」として作ったり、T2のように「料理人の得意技」として蓄積したりします。

⚖️ どちらがすごい？（比較とトレードオフ）

A1/A2（AI 自体を変える）:
- 長所: 根本から能力が変わるため、非常に強力。
- 短所: 計算コストが凄まじく高く、新しいことを学ばせると、昔のことが忘れる（忘却）リスクがあります。
T1/T2（道具や記憶を変える）:
- 長所: コストが安く、新しい能力を「プラグイン」のように追加できるため、忘れることがありません。特に T2 は、少ないデータで劇的な効果を出すことが実証されています。
- 短所: 道具の性能が料理人の能力の上限を決めてしまうため、料理人自体の能力が低ければ限界があります。

🔮 未来への展望：何がまだ課題？

この論文は、これからの AI 開発に以下の課題があると指摘しています。

共進化（Co-Adaptation）: 「料理人」と「道具」を同時に成長させる方法。お互いが影響し合うため、バランスを保つのが難しいですが、これができれば最強のチームになります。
安全な成長（Safety）: 試行錯誤する過程で、AI が危険なことをしないように守る仕組みが必要です（例：ファイルを誤って消さないようにする）。
効率化（Efficiency）: 高性能な AI を、スマホや個人の PC などで動かせるように、軽くして安くする方法。

📝 まとめ

この論文は、**「AI を賢くするには、頭（モデル）を鍛えることだけが正解ではない」**と教えてくれます。

道具（ツール）を良くする（T1/T2）
記憶やスキルを蓄える
時には道具と AI を同時に育てる

これらを組み合わせて、**「安定した頭脳（凍結された AI）」と「進化する手足（適応する道具・記憶）」**のチームを組むことが、これからの AI アシスタントを本当に実用的にする鍵だと結論づけています。

まるで、**「天才的な頭脳を持つ料理人」に、「その人に最適化された最新鋭の道具」と「経験から学んだノート」**を与えてあげれば、どんな複雑な料理（タスク）も完璧にこなせるようになる、というイメージです。

パラダイム	名称	説明	信号源	最適化対象
A1	Tool Execution Signaled Agent Adaptation	エージェントが呼び出したツールの実行結果（コードの実行成功、検索の精度など）を直接的な報酬として利用し、エージェント自体を微調整または強化学習する。	ツール実行結果	エージェント
A2	Agent Output Signaled Agent Adaptation	エージェントの最終的な出力（回答、計画など）の質を評価し、それを信号としてエージェント自体を最適化する。ツール使用の有無に関わらず、最終結果が重視される。	エージェント出力	エージェント
T1	Agent-Agnostic Tool Adaptation	エージェントを固定（フリーズ）したまま、外部ツール（検索器、プランナーなど）を独立して最適化する。エージェントに依存しない汎用的なツール。	独立した評価	ツール
T2	Agent-Supervised Tool Adaptation	固定されたエージェントの出力や行動を教師信号として利用し、外部ツール（検索サブエージェント、メモリ管理モジュールなど）を最適化する。	エージェント出力	ツール

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

🍳 料理人（AI）をどう育てる？4 つの戦略

1. A1：道具の使い方を「実行結果」で教える

2. A2：料理の「完成品」で教える

3. T1：道具そのものを「汎用化」して準備する

4. T2：道具を「料理人のために」カスタマイズする

🧠 記憶とスキル：AI の「経験」をどう蓄える？

⚖️ どちらがすごい？（比較とトレードオフ）

🔮 未来への展望：何がまだ課題？

📝 まとめ

論文要約：Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

1. 問題定義 (Problem)

2. 手法・枠組み (Methodology)

適応の 2 つの次元

4 つのパラダイム

調査対象のメカニズム

3. 主要な貢献 (Key Contributions)

4. 結果と知見 (Results & Findings)

5. 意義と将来展望 (Significance & Future Directions)

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

🍳 料理人（AI）をどう育てる？4 つの戦略

1. A1：道具の使い方を「実行結果」で教える

2. A2：料理の「完成品」で教える

3. T1：道具そのものを「汎用化」して準備する

4. T2：道具を「料理人のために」カスタマイズする

🧠 記憶とスキル：AI の「経験」をどう蓄える？

⚖️ どちらがすごい？（比較とトレードオフ）

🔮 未来への展望：何がまだ課題？

📝 まとめ

論文要約：Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

1. 問題定義 (Problem)

2. 手法・枠組み (Methodology)

適応の 2 つの次元

4 つのパラダイム

調査対象のメカニズム

3. 主要な貢献 (Key Contributions)

4. 結果と知見 (Results & Findings)

5. 意義と将来展望 (Significance & Future Directions)

関連論文

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance