Hybrid Self-evolving Structured Memory for GUI Agents

该论文提出了受人类记忆启发的混合自进化结构化记忆(HyMEM),通过结合离散符号节点与连续轨迹嵌入的图结构,显著提升了开源 GUI 智能体在长程任务中的表现,使其甚至能超越部分闭源强模型。

Sibo Zhu, Wenyi Wu, Kun Zhou, Stephen Wang, Biwei Huang

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 HYMEM 的新系统,它的目的是让电脑里的“智能助手”(GUI Agent)变得更聪明、更像人。

为了让你轻松理解,我们可以把现在的智能助手想象成一个刚入职的实习生,而 HYMEM 就是给这个实习生配备的一套**“超级大脑记忆系统”**。

1. 现在的痛点:实习生为什么总犯错?

想象一下,你让实习生去网上帮你在亚马逊买一双鞋,还要顺便查一下附近的加油站。

  • 任务太长:这不像问个天气那么简单,需要点很多次、看很多页面,步骤很长(长程任务)。
  • 界面千变万化:每个网站的按钮位置、颜色都不一样。
  • 容易忘:现在的智能助手就像个“金鱼”,记性只有 7 秒。它做完一步,忘了上一步的上下文,或者在中间某个环节点错了一个按钮,整个任务就崩了,而且它不知道该怎么补救。

以前的方法给助手加了个“记事本”,但那个记事本太简陋了:

  • 要么全是文字摘要(像记流水账,丢了细节);
  • 要么全是模糊的图片印象(像只记得大概长什么样,但说不清具体怎么操作)。
    这就导致助手要么“懂策略但看不清细节”,要么“记得细节但不懂大方向”。

2. HYMEM 的解决方案:像人类大脑一样的“混合记忆库”

作者受人类大脑的启发,设计了一个**“混合自进化结构化记忆”。我们可以把它想象成实习生的“超级工作笔记”**,它有三个核心特点:

🧠 特点一:双重记忆模式(既记“怎么做”,又记“长啥样”)

人类大脑有两个部分:

  • 新皮层(Neocortex):负责记概念和策略(比如“买东西要先比价”)。
  • 海马体(Hippocampus):负责记具体的经历和画面(比如“上次那个红色的‘购买’按钮在第 3 行”)。

HYMEM 把这两者结合了:

  • 离散节点(策略):用文字记录“核心策略”。比如:“买便宜东西要按价格从低到高排”。
  • 连续嵌入(细节):用数学向量记录“具体画面”。比如:“那个按钮是蓝色的,在屏幕右下角”。
    比喻:就像你既有操作手册(文字版策略),又有现场录像(画面版细节)。助手既能知道“该做什么”,又能精准地“点在哪里”。

🌱 特点二:自进化(像滚雪球一样越用越聪明)

以前的记忆库是死的,存进去就不变了。HYMEM 是活的

  • 自动整理:当助手又成功完成了一个任务,系统会自动判断:
    • 这是新招数吗?如果是,新建一个笔记。
    • 这是旧招数但更完美吗?如果是,更新旧笔记,把更好的方法覆盖上去。
    • 这跟之前的重复吗?如果是,就合并,不浪费空间。
      比喻:这就像你的经验在自动整理。你以前可能记了 10 条“怎么买鞋”的笔记,现在系统发现其中 8 条其实是一样的,就自动合并成 1 条精华版,还把你新发现的“省钱小窍门”加进去。记忆库不会无限膨胀,而是越来越精炼、越用越准。

⚡ 特点三:实时刷新(随时调整状态)

在长任务中,情况是变化的。比如从“搜索商品”变成了“结账”。

  • 旧系统:拿着“搜索”时的笔记去“结账”,结果张冠李戴,乱点一气。
  • HYMEM:它能实时感知任务阶段变了(比如发现页面变成了支付页),然后立刻扔掉旧的“搜索策略”,重新检索“结账策略”并更新工作记忆。
    比喻:就像你开车,从“城市道路”开到了“高速公路”。你的大脑会自动切换模式:城市里看红绿灯,高速上保持车距。HYMEM 能自动完成这种“换挡”,不会让你还在高速上找红绿灯。

3. 效果如何?

实验结果显示,这套系统非常强大:

  • 小模型也能打:原本只有 70 亿参数(7B)的开源小模型,用了 HYMEM 后,表现直接暴涨 22.5%
  • 吊打巨头:它甚至让这个小模型的表现超过了谷歌的 Gemini 2.5 Pro 和 OpenAI 的 GPT-4o 等顶级闭源大模型。
  • 省钱又高效:这意味着我们不需要花巨资去训练超级大模型,只要给现有的小模型配上这个“超级大脑”,就能干大事。

总结

简单来说,HYMEM 就是给 AI 助手装了一个**“会思考、会整理、会实时更新”的超级大脑**。
它不再是一个只会死记硬背的机器,而是一个能像人一样:

  1. 既懂大道理,又记得小细节
  2. 越用越聪明,自动去粗取精
  3. 根据环境变化,随时调整策略

这让未来的电脑助手能真正像人类一样,从容地处理复杂的、多步骤的电脑操作任务。