Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**"AI 智能体进化指南”**。

想象一下，现在的 AI（比如 ChatGPT）就像是一个天赋异禀但缺乏经验的“天才实习生”。它读过很多书（预训练），知道很多道理，但如果你让它去处理复杂的现实任务（比如写代码、查资料、操作电脑），它可能会手忙脚乱，或者用错工具。

这篇论文的核心问题就是：当这个“实习生”表现不好时，我们该怎么帮它升级？

作者提出了一个非常清晰的**“四象限进化法”**，把升级方法分成了两类：改人（Agent Adaptation）和改工具（Tool Adaptation）。

🎯 核心比喻：修车 vs. 换零件

为了理解这篇论文，我们可以把 AI 系统想象成一辆赛车：

AI 大脑（Agent） = 赛车手（负责思考、决策、指挥）。
工具（Tools） = 赛车上的各种设备（导航仪、雷达、维修工具箱、甚至是一个专门负责查路况的副手）。

当赛车跑不快时，我们有两种思路：

训练赛车手（改人）：让赛车手变得更聪明、反应更快。
升级设备或换副手（改工具）：给赛车手配个更好的导航仪，或者雇个更厉害的副手来查路况。

这篇论文把这两种思路又细分成了四种具体的“进化流派”：

🚀 四大进化流派详解

1. A1 流派：听“工具”的话来练手 (Tool Execution Signaled)

场景：赛车手在练习操作具体设备。
怎么练：赛车手试着按下一个按钮（调用工具），如果按钮按对了，仪表盘显示“成功”，他就得到奖励；如果按错了，仪表盘报错，他就知道错了。
例子：让 AI 写代码。AI 写一段，电脑运行一下。如果代码跑通了（工具反馈），AI 就觉得自己做对了；如果报错了，AI 就修改。
特点：反馈非常直接、具体（就像打游戏通关），适合练那些有标准答案的技能（如写代码、查数据库）。

2. A2 流派：看“最终结果”来练脑 (Agent Output Signaled)

场景：赛车手在练习整体策略和决策。
怎么练：不管中间过程多曲折，只要最后赛车冲过了终点线（任务完成），赛车手就得到奖励。至于中间是用导航仪查的路，还是问的副手，AI 自己会慢慢琢磨出规律。
例子：让 AI 做深度研究。AI 可能会先搜资料，再读文章，最后写报告。只有当报告写得好（最终结果好），它才觉得自己做对了。
特点：反馈比较宏观、模糊（就像考试只看总分），适合处理复杂、需要多步思考的任务，但训练起来比较难，因为不知道具体哪一步错了。

3. T1 流派：请“万能专家”当外援 (Agent-Agnostic Tool)

场景：赛车手不动，直接换装备。
怎么练：赛车手还是那个赛车手，但我们给他配了一个通用的、训练有素的导航仪。这个导航仪是独立训练出来的，不管谁用，它都很准。
例子：给 AI 配一个现成的、训练好的“搜索引擎”或“翻译器”。AI 不需要学怎么搜索，它直接调用这个现成的工具。
特点：省钱、灵活。工具是通用的，谁都能用，不用重新训练 AI 大脑。

4. T2 流派：给赛车手配个“专属副手” (Agent-Supervised Tool)

场景：赛车手不动，但给他配一个专门为他服务的副手。
怎么练：赛车手（AI 大脑）不动，我们训练一个小助手（Subagent）。这个小助手专门观察赛车手的习惯，学习“赛车手喜欢什么样的导航信息”。如果赛车手因为信息不对而跑错了，小助手就调整自己的策略，下次给赛车手更精准的信息。
例子：AI 负责做决策，但让它去搜索时，它发现搜回来的资料太乱。于是我们训练一个“搜索小助手”，专门学会如何把资料整理成 AI 最喜欢看的格式，从而帮 AI 提高最终得分。
特点：数据效率极高。因为不需要训练那个庞大的 AI 大脑，只训练一个小助手，就能让整体性能大幅提升。这是目前非常热门且高效的方向。

⚖️ 怎么选？（论文给出的建议）

作者通过对比发现，不同的任务适合不同的流派：

如果你要练“硬技能”（如写代码、算数学题）：
- 首选 A1。因为代码跑不通就是跑不通，反馈很明确，AI 能迅速学会。
如果你要搞“复杂决策”（如写小说、做深度研究）：
- 首选 A2 或 T2。因为这类任务很难一步步拆解，需要看最终效果。特别是 T2（训练专属副手），既省资源又效果好，是未来的大趋势。
如果你只是想“加功能”：
- 首选 T1。直接插拔现成的工具（如翻译、绘图），最快最稳。

💡 总结与启示

这篇论文告诉我们，未来的 AI 发展不再是单纯地“把模型越做越大”（像 A2 那样死磕大脑），而是走向**“模块化协作”**：

大脑要稳：保持一个强大的、冻结的（不常改的）核心 AI 作为“指挥官”。
手脚要活：通过训练各种小工具、小助手（T1/T2），让它们专门负责查资料、记笔记、写代码。
动态配合：让“指挥官”和“小助手”互相适应，就像一支配合默契的足球队，而不是靠一个超级球星单打独斗。

一句话总结：
别总想着把 AI 大脑练成“全能神”，不如给它配一群训练有素的“特种兵”小助手，让它们分工合作，这样既省钱、又安全、还更聪明！

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

🎯 核心比喻：修车 vs. 换零件

🚀 四大进化流派详解

1. A1 流派：听“工具”的话来练手 (Tool Execution Signaled)

2. A2 流派：看“最终结果”来练脑 (Agent Output Signaled)

3. T1 流派：请“万能专家”当外援 (Agent-Agnostic Tool)

4. T2 流派：给赛车手配个“专属副手” (Agent-Supervised Tool)

⚖️ 怎么选？（论文给出的建议）

💡 总结与启示

1. 研究背景与问题 (Problem)

2. 核心方法论：四范式框架 (Methodology)

A. 智能体适应 (Agent Adaptation)

B. 工具适应 (Tool Adaptation)

3. 关键贡献 (Key Contributions)

4. 主要结果与发现 (Results & Findings)

5. 意义与未来展望 (Significance & Future Directions)

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

🎯 核心比喻：修车 vs. 换零件

🚀 四大进化流派详解

1. A1 流派：听“工具”的话来练手 (Tool Execution Signaled)

2. A2 流派：看“最终结果”来练脑 (Agent Output Signaled)

3. T1 流派：请“万能专家”当外援 (Agent-Agnostic Tool)

4. T2 流派：给赛车手配个“专属副手” (Agent-Supervised Tool)

⚖️ 怎么选？（论文给出的建议）

💡 总结与启示

1. 研究背景与问题 (Problem)

2. 核心方法论：四范式框架 (Methodology)

A. 智能体适应 (Agent Adaptation)

B. 工具适应 (Tool Adaptation)

3. 关键贡献 (Key Contributions)

4. 主要结果与发现 (Results & Findings)

5. 意义与未来展望 (Significance & Future Directions)

类似论文

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance