HiconAgent: History Context-aware Policy Optimization for GUI Agents

本文提出了 HiconAgent,一种通过动态上下文采样和锚点引导的历史压缩策略来优化历史上下文利用的 GUI 智能体,在显著降低计算成本的同时实现了优于更大规模模型的性能。

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HiconAgent 的“智能手机助手”(GUI Agent),它的主要任务是帮你在手机或电脑屏幕上操作各种应用(比如订机票、买东西)。

为了让你更容易理解,我们可以把操作手机屏幕想象成在迷宫里找路,而HiconAgent 就是一个超级聪明的向导。

1. 核心问题:向导记性太好,反而迷路了?

以前的智能向导(AI 模型)在帮你找路时,有一个大毛病:

  • 记性太好(全量历史): 它会把从出发开始看到的每一张地图、走过的每一步都背得滚瓜烂熟。结果呢?脑子装得太满,反应变慢,而且容易被无关紧要的旧信息干扰,反而忘了现在该往哪走。
  • 记性太差(忽略历史): 如果为了快,干脆把过去的经历全忘了,只盯着眼前这一秒,那遇到复杂的任务(比如“先点这个,再点那个,最后返回”)时,它又容易断片,不知道前因后果。

这就好比: 一个导游带着你旅游。

  • 如果他把你过去 100 天看过的所有风景都讲一遍,你早就晕了,根本不知道现在该往哪走。
  • 如果他完全忘了刚才走过的路,你让他“往回走两步”,他可能直接走到大街上去了。

2. HiconAgent 的解决方案:聪明的“记忆管理术”

HiconAgent 发明了一套叫 HCPO 的训练方法,就像给向导装上了两个“超能力”:

超能力一:动态记忆选择 (DCS) —— “看菜吃饭,按需回忆”

  • 以前的做法: 无论遇到什么任务,导游都强制回忆过去 3 步的经历。
  • HiconAgent 的做法: 它学会了灵活变通
    • 如果是简单的任务(比如“打开微信”),它只回忆最近的一步,甚至不回忆,直接行动,快如闪电
    • 如果是复杂的任务(比如“订机票,要选日期、选座位、填信息”),它会自动调取过去几步的关键信息,深思熟虑
    • 比喻: 就像你平时走路,如果是去楼下拿快递,你不需要回忆昨天吃了什么;但如果是去一个陌生的地方找朋友,你才会特意回想刚才的路口和标志。HiconAgent 能自动判断什么时候该“翻旧账”,什么时候该“向前看”。

超能力二:锚点压缩 (AHC) —— “只留路标,扔掉垃圾”

  • 以前的做法: 为了保留记忆,它把过去每一步看到的整个屏幕截图(图片)和操作动作(文字)都存下来。图片非常占内存,导致计算变慢。
  • HiconAgent 的做法: 它发现,过去屏幕上的图片大部分是重复的(比如背景没变),但你刚才做了什么动作(比如“点击了红色按钮”)才是最重要的线索。
    • 它把过去那些没用的图片直接扔掉(压缩),只保留关键的动作记录作为“路标”(锚点)。
    • 比喻: 想象你在写日记。以前的导游会把每天看到的每一棵树、每一朵云都画下来,日记本厚得像砖头。HiconAgent 则只记录:“早上 8 点,我按了电梯按钮”。虽然它没画电梯长什么样,但“按按钮”这个动作足以让它知道接下来该干什么。这样日记本薄了,翻起来快了,但关键信息一点没丢。

3. 训练过程:双管齐下的“师徒教学”

为了让这个向导既聪明又高效,研究人员设计了一个独特的训练过程:

  • 师傅(全量记忆版): 一个拥有完整记忆(所有图片和动作)的“学霸”模型,负责给出正确的答案。
  • 徒弟(压缩记忆版): 一个只保留关键动作、扔掉图片的“轻量级”模型。
  • 教学策略: 徒弟在干活时,师傅在旁边看着。徒弟要努力让自己的回答和师傅一样准确,但用的脑子更少。如果徒弟答错了,师傅会纠正它。
  • 结果: 徒弟最终学会了:“即使我只记住了关键动作,我也能像师傅一样聪明地完成任务。”

4. 最终效果:小身材,大能量

实验结果表明,HiconAgent 非常厉害:

  • 更聪明: 在复杂的导航任务(如 GUI-Odyssey 测试)中,它的成功率比那些参数大得多的模型(比如 70 亿参数的模型)还要高出 11.32%
  • 更快速: 因为它扔掉了很多无用的图片数据,计算速度提升了 2.47 倍,算力消耗减少了 60%
  • 更省钱: 它只需要 30 亿参数(3B),却打败了 70 亿参数(7B)的模型。

总结

HiconAgent 就像是一个懂得“断舍离”的超级向导
它不再死记硬背所有的历史画面,而是学会了:

  1. 该回忆时回忆(动态选择记忆长度);
  2. 该扔掉时扔掉(只保留关键动作,扔掉冗余图片)。

这让它在处理手机操作任务时,既反应快(省资源),又脑子灵(不迷路),真正实现了“小模型,大智慧”。