Trajectory-Informed Memory Generation for Self-Improving Agent Systems

该论文提出了一种名为“轨迹感知记忆生成”的新框架,通过从智能体执行轨迹中提取策略、恢复和优化等结构化经验,并利用自适应检索将其注入提示,从而显著提升智能体在复杂任务中的自我改进能力与目标完成率。

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi Thomas

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个让 AI 智能体(Agent)变得“越用越聪明”的秘诀。

想象一下,你正在教一个刚入职的实习生做电商运营。

  • 普通 AI:就像那个实习生,今天把购物车里的商品清空时,笨手笨脚地一个个删除,虽然最后做完了,但效率极低;或者在结账时忘了加支付方式,导致失败,下次遇到同样的问题,它还是不知道该怎么补救,只能继续犯错。因为它没有“记忆”,每次都是“失忆”状态重新开始。
  • 这篇论文提出的 AI:就像那个实习生有一个超级导师。每次任务结束后,导师不仅会看结果,还会仔细复盘整个过程,把“怎么做才对”、“哪里错了怎么改”、“怎么做得更快”都总结成三条具体的“锦囊妙计”,存进一本智能备忘录里。下次再遇到类似任务,AI 就会立刻翻开备忘录,照着锦囊办事。

下面我用三个生动的比喻来拆解这个系统的核心:

1. 核心痛点:AI 的“金鱼记忆”

现在的 AI 智能体虽然能干活,但大多没有“长期记忆”。

  • 现状:如果你让它今天去亚马逊清空购物车,它可能用了一个很笨的方法(比如循环删除每个商品)。明天你让它再清空一次,它完全忘了昨天的教训,继续用笨方法,或者遇到报错就卡死。
  • 问题:它们只会“死记硬背”任务指令,不会从过去的经历(轨迹)中提炼经验。

2. 解决方案:把“经历”变成“锦囊”

作者设计了一套系统,能把 AI 每次执行任务的全过程录像(轨迹),自动分析并提炼成三种类型的行动指南(Tips):

  • 策略锦囊(Strategy Tips):
    • 场景:AI 完美地完成了任务。
    • 提炼:导师发现它“在结账前,先检查了购物车、地址和支付方式,一切就绪才动手”。
    • 存入:下次任务,直接提示:“结账前记得先做这三步检查!”
  • 急救锦囊(Recovery Tips):
    • 场景:AI 搞砸了(比如结账失败),但它自己发现错误,加了支付方式,最后成功了。
    • 提炼:导师分析:“看,它是因为没加支付方式才报错的,但它后来知道去检查并补救了。”
    • 存入:下次任务,直接提示:“如果结账报错说缺支付方式,别慌,先去检查并添加!”
  • 优化锦囊(Optimization Tips):
    • 场景:AI 做完了,但过程很蠢(比如一个个删商品)。
    • 提炼:导师指出:“你明明有一个‘一键清空’的按钮,为什么要一个个删呢?”
    • 存入:下次任务,直接提示:“清空购物车时,直接用‘一键清空’,别一个个删!”

3. 系统运作:像“图书馆管理员”一样工作

这套系统分为三个步骤,就像图书馆的管理流程:

  • 第一步:智能分析(Trajectory Intelligence Extractor)
    • 就像侦探。它不看表面的动作,而是深入分析 AI 的“内心独白”(思考过程)。它要搞清楚:AI 为什么这么做?哪里想错了?哪里想对了?它能把复杂的操作过程拆解成“登录”、“查数据”、“处理数据”等小模块。
  • 第二步:整理归档(Tip Storage & Management)
    • 就像图书管理员。如果今天 AI 从“清空购物车”学到了经验,明天从“清空订单”也学到了类似的,管理员会把这两条经验合并,去重,变成一条通用的“清空类任务锦囊”,避免书架上堆满重复的废话。
  • 第三步:精准推荐(Adaptive Memory Retrieval)
    • 就像懂你的导购员。当 AI 接到新任务时,系统不会把整本备忘录都塞给它(那样会把它吓死),而是根据当前任务的上下文(比如是电商任务还是日历任务),精准地挑出最相关的 3-5 条锦囊,写在它的“任务清单”最前面。

4. 效果如何?(用数据说话)

作者在“应用世界”(AppWorld)这个复杂的测试环境里做了实验:

  • 简单任务:AI 本来就能做对,加了记忆后稍微更好一点。
  • 复杂任务(这是重点):
    • 在没有记忆时,AI 面对复杂任务(比如跨多个 APP 操作、需要处理各种报错)的成功率只有 19.1%
    • 用了这套“锦囊系统”后,成功率飙升到 47.6%
    • 提升幅度:相对提升了 149%

总结

这篇论文的核心思想就是:不要让 AI 每次都从零开始

通过自动分析 AI 过去的“成功、失败和笨拙”的经历,把它们转化成结构化的、可执行的“小抄”,并在下次需要时精准地递到 AI 手里。这就好比给 AI 配备了一个24 小时在线的、经验丰富的老教练,让它不仅能完成任务,还能在不断的实践中自我进化,变得越来越聪明、越来越稳健。

这项技术目前已经在 IBM 的企业级智能体平台中开始应用,让企业的自动化系统能够随着使用时间的增长,变得越来越强。