Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个让 AI 智能体（Agent）变得“越用越聪明”的秘诀。

想象一下，你正在教一个刚入职的实习生做电商运营。

普通 AI：就像那个实习生，今天把购物车里的商品清空时，笨手笨脚地一个个删除，虽然最后做完了，但效率极低；或者在结账时忘了加支付方式，导致失败，下次遇到同样的问题，它还是不知道该怎么补救，只能继续犯错。因为它没有“记忆”，每次都是“失忆”状态重新开始。
这篇论文提出的 AI：就像那个实习生有一个超级导师。每次任务结束后，导师不仅会看结果，还会仔细复盘整个过程，把“怎么做才对”、“哪里错了怎么改”、“怎么做得更快”都总结成三条具体的“锦囊妙计”，存进一本智能备忘录里。下次再遇到类似任务，AI 就会立刻翻开备忘录，照着锦囊办事。

下面我用三个生动的比喻来拆解这个系统的核心：

1. 核心痛点：AI 的“金鱼记忆”

现在的 AI 智能体虽然能干活，但大多没有“长期记忆”。

现状：如果你让它今天去亚马逊清空购物车，它可能用了一个很笨的方法（比如循环删除每个商品）。明天你让它再清空一次，它完全忘了昨天的教训，继续用笨方法，或者遇到报错就卡死。
问题：它们只会“死记硬背”任务指令，不会从过去的经历（轨迹）中提炼经验。

2. 解决方案：把“经历”变成“锦囊”

作者设计了一套系统，能把 AI 每次执行任务的全过程录像（轨迹），自动分析并提炼成三种类型的行动指南（Tips）：

策略锦囊（Strategy Tips）：
- 场景：AI 完美地完成了任务。
- 提炼：导师发现它“在结账前，先检查了购物车、地址和支付方式，一切就绪才动手”。
- 存入：下次任务，直接提示：“结账前记得先做这三步检查！”
急救锦囊（Recovery Tips）：
- 场景：AI 搞砸了（比如结账失败），但它自己发现错误，加了支付方式，最后成功了。
- 提炼：导师分析：“看，它是因为没加支付方式才报错的，但它后来知道去检查并补救了。”
- 存入：下次任务，直接提示：“如果结账报错说缺支付方式，别慌，先去检查并添加！”
优化锦囊（Optimization Tips）：
- 场景：AI 做完了，但过程很蠢（比如一个个删商品）。
- 提炼：导师指出：“你明明有一个‘一键清空’的按钮，为什么要一个个删呢？”
- 存入：下次任务，直接提示：“清空购物车时，直接用‘一键清空’，别一个个删！”

3. 系统运作：像“图书馆管理员”一样工作

这套系统分为三个步骤，就像图书馆的管理流程：

第一步：智能分析（Trajectory Intelligence Extractor）
- 就像侦探。它不看表面的动作，而是深入分析 AI 的“内心独白”（思考过程）。它要搞清楚：AI 为什么这么做？哪里想错了？哪里想对了？它能把复杂的操作过程拆解成“登录”、“查数据”、“处理数据”等小模块。
第二步：整理归档（Tip Storage & Management）
- 就像图书管理员。如果今天 AI 从“清空购物车”学到了经验，明天从“清空订单”也学到了类似的，管理员会把这两条经验合并，去重，变成一条通用的“清空类任务锦囊”，避免书架上堆满重复的废话。
第三步：精准推荐（Adaptive Memory Retrieval）
- 就像懂你的导购员。当 AI 接到新任务时，系统不会把整本备忘录都塞给它（那样会把它吓死），而是根据当前任务的上下文（比如是电商任务还是日历任务），精准地挑出最相关的 3-5 条锦囊，写在它的“任务清单”最前面。

4. 效果如何？（用数据说话）

作者在“应用世界”（AppWorld）这个复杂的测试环境里做了实验：

简单任务：AI 本来就能做对，加了记忆后稍微更好一点。
复杂任务（这是重点）：
- 在没有记忆时，AI 面对复杂任务（比如跨多个 APP 操作、需要处理各种报错）的成功率只有 19.1%。
- 用了这套“锦囊系统”后，成功率飙升到 47.6%！
- 提升幅度：相对提升了 149%。

总结

这篇论文的核心思想就是：不要让 AI 每次都从零开始。

通过自动分析 AI 过去的“成功、失败和笨拙”的经历，把它们转化成结构化的、可执行的“小抄”，并在下次需要时精准地递到 AI 手里。这就好比给 AI 配备了一个24 小时在线的、经验丰富的老教练，让它不仅能完成任务，还能在不断的实践中自我进化，变得越来越聪明、越来越稳健。

这项技术目前已经在 IBM 的企业级智能体平台中开始应用，让企业的自动化系统能够随着使用时间的增长，变得越来越强。

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

1. 核心痛点：AI 的“金鱼记忆”

2. 解决方案：把“经历”变成“锦囊”

3. 系统运作：像“图书馆管理员”一样工作

4. 效果如何？（用数据说话）

总结

1. 研究背景与问题陈述 (Problem Statement)

2. 方法论 (Methodology)

阶段 1：轨迹分析与提示提取 (Trajectory Analysis and Tips Extraction)

阶段 2：提示存储与管理 (Tip Storage and Management)

阶段 3：运行时检索 (Runtime Retrieval)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

1. 核心痛点：AI 的“金鱼记忆”

2. 解决方案：把“经历”变成“锦囊”

3. 系统运作：像“图书馆管理员”一样工作

4. 效果如何？（用数据说话）

总结

1. 研究背景与问题陈述 (Problem Statement)

2. 方法论 (Methodology)

阶段 1：轨迹分析与提示提取 (Trajectory Analysis and Tips Extraction)

阶段 2：提示存储与管理 (Tip Storage and Management)

阶段 3：运行时检索 (Runtime Retrieval)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem