M2^2: Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

本文提出了无需训练的 M² 框架,通过结合动态轨迹总结(内部记忆)与离线洞察检索(外部记忆)的双层记忆机制,有效解决了多模态智能体在长周期网页导航任务中的上下文效率与决策鲁棒性瓶颈,并在多个基准测试中显著提升了成功率并降低了计算成本。

Dawei Yan, Haokui Zhang, Guangda Huzhang, Yang Li, Yibo Wang, Qing-Guo Chen, Zhao Xu, Weihua Luo, Ying Li, Wei Dong, Chunhua Shen

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 M2 的新方法,旨在解决人工智能(AI)代理在浏览复杂网页时遇到的“记性差”和“脑子乱”的问题。

想象一下,你让一个机器人去网上帮你完成一个复杂的任务,比如:“帮我找一下最新款 iMac 的价格,然后看看它支持哪些内置软件,最后把价格告诉我。”

如果这个任务很简单,机器人一步就能搞定。但如果任务很长,需要点击十几个页面、滚动很多次、还要填表单,现在的机器人就会遇到两个大麻烦:

  1. 记性太满(Context Explosion): 现在的机器人为了记住刚才做了什么,会把每一张看到的网页截图、每一行文字都原封不动地塞进脑子里。就像你为了记住去超市的路线,把沿途经过的每一个路牌、每一棵树、每一辆车的照片都贴在脑子里。走着走着,脑子就塞满了,不仅反应变慢,还容易把重要的信息(比如“我要买苹果”)淹没在无关紧要的垃圾信息(比如“路边的广告牌”)里。
  2. 没经验(No Prior Knowledge): 机器人是“第一次”做这件事,它不知道某些网页有陷阱(比如点错了会跳出广告,或者搜索框没反应要换个词)。它只能盲目地试错,效率很低。

M2 的解决方案:给机器人装上了“双脑记忆系统”

M2 不需要重新训练机器人(不用给它上昂贵的补习班),而是给它装了一个聪明的“双脑”系统:

1. 内部记忆:像写“日记摘要”一样(Internal Memory)

  • 传统做法: 机器人每走一步,就把刚才看到的整个网页截图和所有文字都存下来。
  • M2 的做法: 机器人每走一步,就强迫自己写一句**“日记摘要”**。
    • 比喻: 就像你旅游时,不会把每天拍的一万张照片都带在身上,而是每天睡前写一句:“今天去了长城,爬了北坡,很累但风景很好。”
    • 效果: 机器人只保留这些精简的“日记”,把那些几千字的废话和几千像素的截图都扔掉。这样,它的脑子(内存)永远很轻快,能专注于当前的任务,不会因为“记太多”而变傻。

2. 外部记忆:像查“老手攻略”一样(External Memory)

  • 传统做法: 机器人遇到新问题,只能自己瞎琢磨。
  • M2 的做法: 机器人有一个“老手攻略库”。这个库里存着以前其他聪明的机器人成功完成任务的**“经验心得”**。
    • 比喻: 当机器人要去一个陌生的网站时,它先问:“以前有人去过类似的地方吗?有什么坑要避开?”
    • 例子: 攻略库里可能会写着:“如果在搜索框搜不到东西,试着把长句子改成短关键词”或者“如果页面卡住了,不要一直点刷新,试试按浏览器的‘后退’键”。
    • 效果: 机器人还没开始行动,就已经拿到了“避坑指南”,能直接避开那些常见的错误,像老手一样行动。

这个系统厉害在哪里?

  1. 省钱又省力: 因为机器人不再需要处理海量的旧截图和文字,它消耗的算力(Token)减少了近 60%。这就好比把一辆满载货物的卡车,变成了一辆轻便的摩托车,跑得更快,油耗更低。
  2. 更聪明、更准确: 实验证明,用了这套系统的开源模型(比如 Qwen3-VL),其表现甚至超过了那些没有用这套系统、但更昂贵的闭源商业模型(比如 Claude)。
    • 数据: 在复杂的网页任务中,成功率提升了 16% 到 19%
  3. 不需要“特训”: 最大的优点是,这套方法不需要花几个月时间去训练一个新的 AI 模型。它就像给现有的机器人戴上了一副“智能眼镜”和一本“攻略书”,立刻就能变强。

总结

简单来说,M2 就是给网页浏览机器人装上了两个神器:

  • 一个是**“极简日记本”**,帮它把冗长的历史压缩成精华,防止脑子塞爆。
  • 一个是**“专家攻略库”**,帮它吸取前人的经验,少走弯路。

这就让机器人从“只会死记硬背的笨学生”,变成了“既记性好又有经验的聪明老手”,能在复杂的互联网世界里高效、准确地完成任务。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →