Spatio-Temporal Token Pruning for Efficient High-Resolution GUI Agents

本文提出了名为 GUIPruner 的免训练框架,通过时序自适应分辨率(TAR)和分层结构感知剪枝(SSP)策略,有效解决了高分辨率 GUI 智能体中存在的时空冗余与拓扑冲突问题,在显著降低计算成本并加速推理的同时,保持了高精度的导航性能。

Zhou Xu, Bowen Zhou, Qi Wang, Shuwen Feng, Jingyu Xiao

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 GUIPruner 的新方法,旨在让 AI 机器人(GUI Agent)在操作手机或电脑界面时,变得更快、更聪明,且更省资源

为了让你轻松理解,我们可以把 AI 操作界面想象成一个刚入职的实习生,正在帮老板处理复杂的手机或电脑任务

🚨 以前的痛点:实习生“记性太好”且“抓不住重点”

在 GUIPruner 出现之前,AI 机器人面临两个巨大的效率问题:

  1. “过目不忘”的累赘(时空冗余):

    • 比喻: 想象这个实习生在帮老板点外卖。老板让他回顾过去 10 分钟的操作记录。以前的 AI 会把这 10 分钟里每一秒的屏幕都高清保存下来,连老板发呆时屏幕上的灰尘都看得清清楚楚。
    • 问题: 其实,老板只关心刚才发生了什么(比如刚点了什么按钮),很久以前的画面(比如 5 分钟前)只要大概知道“刚才在刷菜单”就行了,不需要高清细节。但以前的 AI 不管时间远近,全部高清处理,导致大脑(算力)累得半死,反应很慢。
  2. “乱剪图片”导致的迷路(空间拓扑冲突):

    • 比喻: 现在的屏幕截图里,90% 都是背景(比如白色的空白区域、灰色的边框),只有 10% 是真正要点的按钮或输入框。为了省资源,以前的 AI 会像拿剪刀乱剪一样,随机把一些不重要的像素点剪掉。
    • 问题: 这种“乱剪”破坏了画面的整体结构。就像你剪掉了一张地图的边缘,虽然中间的路还在,但实习生突然就不知道“北”在哪里了,导致它点错了位置(比如想点“提交”,结果点到了旁边的空白处),这就是所谓的“空间幻觉”。

💡 GUIPruner 的解决方案:聪明的“记忆管理” + “结构化修剪”

GUIPruner 就像给这个实习生配了一位超级高效的助理,它不需要重新训练实习生,而是直接教它两套新招数:

1. 招数一:随时间“褪色”的记忆法 (TAR - 时间自适应分辨率)

  • 核心思想: 模仿人类大脑的“近因效应”。
  • 通俗解释:
    • 最近的动作(比如 1 秒前): 必须高清!就像你刚看到老板按下的那个红色按钮,必须看得清清楚楚。
    • 稍远的动作(比如 10 秒前): 可以模糊一点。就像你记得“刚才好像是在找菜单”,不需要看清菜单上的每一个小字。
    • 很久以前的动作: 直接缩略图处理。只要知道“之前是在浏览网页”这个大概轮廓就行。
  • 效果: 这样既保留了关键信息,又极大地减少了需要处理的数据量,就像把一本厚厚的相册,把最近的几页放大,把以前的几页缩成小图,省下了大量翻书的时间。

2. 招数二:有章法的“修剪术” (SSP - 分层结构感知修剪)

  • 核心思想: 剪掉垃圾,但绝对不能破坏地图的骨架
  • 通俗解释: 现在的 AI 不再乱剪,而是分三步走:
    1. 保住“主角”: 首先,把所有可点击的按钮、输入框(前景)全部保留,而且要是高清的。这是任务的核心。
    2. 留住“关键配角”: 其次,保留一些重要的背景信息(比如标题栏、分割线),这些是理解上下文的关键。
    3. 撒下“骨架网”: 最后,对于剩下的空白区域,不要随机剪,而是均匀地撒下一张网(均匀网格采样)。
  • 效果: 这就像在修剪一棵树,你剪掉了多余的枯叶(背景冗余),但树干和树枝的骨架(整体布局)完好无损。这样,实习生即使面对一张被“瘦身”过的图片,依然能准确判断“按钮在左上角”,不会点错地方。

🚀 实际效果:快如闪电,稳如泰山

通过这套方法,GUIPruner 带来了惊人的提升:

  • 速度翻倍: 在同样的硬件上,处理速度提升了 3.3 倍。以前 AI 思考一下要几秒钟,现在几乎能实时反应。
  • 省电省资源: 计算量减少了 3.4 倍。这意味着它可以在更便宜的手机上运行,或者让 AI 能同时处理更多任务。
  • 更聪明: 即使在极度压缩数据的情况下,它依然能保持 94% 以上的准确率。特别是在处理复杂的网页或长任务时,它不会像以前的模型那样“脑子短路”(性能崩溃)。

📝 总结

GUIPruner 就像是给 AI 机器人装上了一个智能的“记忆过滤器”和“结构保护罩”
它告诉 AI:“别死记硬背每一帧画面,记住最近的细节,模糊过去的轮廓;也别乱剪图片,保住按钮和整体布局。”

这让 AI 从“笨重的高清摄像机”变成了“敏捷的战术专家”,能够用更少的资源,在复杂的数字世界里精准、快速地完成任务。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →