Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

这篇论文提出了一种涵盖智能体与工具适应的四范式框架,系统综述了大语言模型智能体在预训练后通过微调、偏好优化、强化学习以及记忆和技能系统实现持续进化的最新进展、权衡与评估实践。

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**"AI 智能体进化指南”**。

想象一下,现在的 AI(比如 ChatGPT)就像是一个天赋异禀但缺乏经验的“天才实习生”。它读过很多书(预训练),知道很多道理,但如果你让它去处理复杂的现实任务(比如写代码、查资料、操作电脑),它可能会手忙脚乱,或者用错工具。

这篇论文的核心问题就是:当这个“实习生”表现不好时,我们该怎么帮它升级?

作者提出了一个非常清晰的**“四象限进化法”**,把升级方法分成了两类:改人(Agent Adaptation)改工具(Tool Adaptation)


🎯 核心比喻:修车 vs. 换零件

为了理解这篇论文,我们可以把 AI 系统想象成一辆赛车

  • AI 大脑(Agent) = 赛车手(负责思考、决策、指挥)。
  • 工具(Tools) = 赛车上的各种设备(导航仪、雷达、维修工具箱、甚至是一个专门负责查路况的副手)。

当赛车跑不快时,我们有两种思路:

  1. 训练赛车手(改人):让赛车手变得更聪明、反应更快。
  2. 升级设备或换副手(改工具):给赛车手配个更好的导航仪,或者雇个更厉害的副手来查路况。

这篇论文把这两种思路又细分成了四种具体的“进化流派”:


🚀 四大进化流派详解

1. A1 流派:听“工具”的话来练手 (Tool Execution Signaled)

  • 场景:赛车手在练习操作具体设备
  • 怎么练:赛车手试着按下一个按钮(调用工具),如果按钮按对了,仪表盘显示“成功”,他就得到奖励;如果按错了,仪表盘报错,他就知道错了。
  • 例子:让 AI 写代码。AI 写一段,电脑运行一下。如果代码跑通了(工具反馈),AI 就觉得自己做对了;如果报错了,AI 就修改。
  • 特点:反馈非常直接、具体(就像打游戏通关),适合练那些有标准答案的技能(如写代码、查数据库)。

2. A2 流派:看“最终结果”来练脑 (Agent Output Signaled)

  • 场景:赛车手在练习整体策略和决策
  • 怎么练:不管中间过程多曲折,只要最后赛车冲过了终点线(任务完成),赛车手就得到奖励。至于中间是用导航仪查的路,还是问的副手,AI 自己会慢慢琢磨出规律。
  • 例子:让 AI 做深度研究。AI 可能会先搜资料,再读文章,最后写报告。只有当报告写得好(最终结果好),它才觉得自己做对了。
  • 特点:反馈比较宏观、模糊(就像考试只看总分),适合处理复杂、需要多步思考的任务,但训练起来比较难,因为不知道具体哪一步错了。

3. T1 流派:请“万能专家”当外援 (Agent-Agnostic Tool)

  • 场景:赛车手不动,直接换装备
  • 怎么练:赛车手还是那个赛车手,但我们给他配了一个通用的、训练有素的导航仪。这个导航仪是独立训练出来的,不管谁用,它都很准。
  • 例子:给 AI 配一个现成的、训练好的“搜索引擎”或“翻译器”。AI 不需要学怎么搜索,它直接调用这个现成的工具。
  • 特点省钱、灵活。工具是通用的,谁都能用,不用重新训练 AI 大脑。

4. T2 流派:给赛车手配个“专属副手” (Agent-Supervised Tool)

  • 场景:赛车手不动,但给他配一个专门为他服务的副手
  • 怎么练:赛车手(AI 大脑)不动,我们训练一个小助手(Subagent)。这个小助手专门观察赛车手的习惯,学习“赛车手喜欢什么样的导航信息”。如果赛车手因为信息不对而跑错了,小助手就调整自己的策略,下次给赛车手更精准的信息。
  • 例子:AI 负责做决策,但让它去搜索时,它发现搜回来的资料太乱。于是我们训练一个“搜索小助手”,专门学会如何把资料整理成 AI 最喜欢看的格式,从而帮 AI 提高最终得分。
  • 特点数据效率极高。因为不需要训练那个庞大的 AI 大脑,只训练一个小助手,就能让整体性能大幅提升。这是目前非常热门且高效的方向。

⚖️ 怎么选?(论文给出的建议)

作者通过对比发现,不同的任务适合不同的流派:

  • 如果你要练“硬技能”(如写代码、算数学题)
    • 首选 A1。因为代码跑不通就是跑不通,反馈很明确,AI 能迅速学会。
  • 如果你要搞“复杂决策”(如写小说、做深度研究)
    • 首选 A2T2。因为这类任务很难一步步拆解,需要看最终效果。特别是 T2(训练专属副手),既省资源又效果好,是未来的大趋势。
  • 如果你只是想“加功能”
    • 首选 T1。直接插拔现成的工具(如翻译、绘图),最快最稳。

💡 总结与启示

这篇论文告诉我们,未来的 AI 发展不再是单纯地“把模型越做越大”(像 A2 那样死磕大脑),而是走向**“模块化协作”**:

  1. 大脑要稳:保持一个强大的、冻结的(不常改的)核心 AI 作为“指挥官”。
  2. 手脚要活:通过训练各种小工具、小助手(T1/T2),让它们专门负责查资料、记笔记、写代码。
  3. 动态配合:让“指挥官”和“小助手”互相适应,就像一支配合默契的足球队,而不是靠一个超级球星单打独斗。

一句话总结
别总想着把 AI 大脑练成“全能神”,不如给它配一群训练有素的“特种兵”小助手,让它们分工合作,这样既省钱、又安全、还更聪明!