CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

本文提出了 CRAFT-GUI,一种基于组相对策略优化(GRPO)的课程学习框架,通过引入任务难度分级和细粒度奖励机制,显著提升了智能体在图形用户界面(GUI)任务中的执行性能。

Songqin Nong, Xiaoxuan Tang, Jingxuan Xu, Sheng Zhou, Jianfeng Chen, Tao Jiang, Wenhao Xu

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CRAFT-GUI 的新系统,它的目标是教人工智能(AI)像人一样熟练地操作手机或电脑的软件界面(比如点外卖、查银行账单、玩游戏等)。

为了让你更容易理解,我们可以把训练这个 AI 的过程想象成**“培养一个超级实习生”**。

1. 以前的做法有什么问题?(“填鸭式”教学 vs. “因材施教”)

在 CRAFT-GUI 出现之前,训练 AI 操作软件界面主要有两个大毛病:

  • 毛病一:不管难易,一锅端。
    想象一下,老师给一个刚上幼儿园的孩子布置作业,让他同时做“加减法”和“微积分”题。孩子会懵,学得很慢,甚至产生厌学情绪。
    以前的 AI 训练也是这样:它把简单的任务(比如“点击一下按钮”)和超级复杂的任务(比如“在复杂的外卖软件里,找到特定楼层的餐厅,切换地址,还要用默认支付方式”)混在一起训练。这导致 AI 学得不扎实,进步很慢。
  • 毛病二:奖励太粗糙。
    以前 AI 做对了,老师只给一个笼统的“好”;做错了,只给一个“坏”。
    这就好比学生考试,老师只给个总分,不告诉你是哪道题错了,是计算错了还是公式用错了。AI 不知道具体哪里需要改进,只能瞎猜,效率很低。

2. CRAFT-GUI 是怎么做的?(“循序渐进” + “精准点评”)

CRAFT-GUI 引入了两个核心策略,就像一位经验丰富的“金牌教练”:

策略一:课程表教学法(Curriculum Learning)

这是论文的核心。他们不再把任务混在一起,而是给 AI 制定了一个**“从易到难”的课程表**:

  • 第一阶段(幼儿园班): 只练最简单的任务,比如“点击”、“滑动”,通常只需要 1-3 步就能完成。让 AI 先建立信心,学会基本的“手指”动作。
  • 第二阶段(小学/中学班): 开始练稍微复杂点的,比如“打开 APP -> 搜索 -> 选择”,需要 4-8 步。这时候 AI 已经会走直线了,开始学转弯。
  • 第三阶段(大学/研究生班): 挑战高难度任务,比如“理解复杂的界面文字”、“在多个页面间跳转”、“处理突发情况”,需要 8 步以上,甚至需要像人一样去“思考”界面里的含义。

比喻: 就像练武术,先扎马步(基础操作),再练套路(多步流程),最后才去实战对打(复杂场景)。这样 AI 学得稳,进步快。

策略二:精细化的“打分表”(Fine-grained Reward)

以前的奖励是“对/错”二分法,CRAFT-GUI 给 AI 设计了一套**“多维度的评分系统”**:

  • 工具选对了吗? 比如你想“点击”,AI 却选了“滑动”,这就扣分。
  • 参数准吗? 比如让你点“左上角的按钮”,AI 点到了“右上角”,虽然动作对了,但位置偏了,也要扣分。
  • 格式对吗? AI 的回复是不是像人话一样有条理?
  • 别啰嗦! 如果 AI 想太多,说了半天废话(生成了太长的思考过程),系统会像家长一样说:“停!说重点!”并给它一个“超时惩罚”。

比喻: 这就像体育教练看运动员跑步。以前教练只看“跑没跑完”;现在教练会看:“起跑姿势对不对?”“摆臂幅度标不标准?”“最后冲刺有没有偷懒?”给每一个动作都打分,AI 就能知道自己具体哪里需要改进。

3. 效果怎么样?(“优等生”的诞生)

经过这套“循序渐进 + 精准点评”的训练,CRAFT-GUI 的表现非常惊人:

  • 在公开考试(AndroidWorld)中: 它比以前的最先进方法(SOTA)提高了 7.1%
  • 在自家的高难度考试(内部数据)中: 它比最好的对手提高了 10.3%
  • 特别厉害的是: 它不仅学会了“怎么动手操作”(比如点哪里),还学会了“怎么理解界面”(比如看懂界面上的字是什么意思)。以前的 AI 可能只会机械点击,但 CRAFT-GUI 能理解“我要把地址改成一楼”这种复杂的指令。

总结

简单来说,CRAFT-GUI 就是给 AI 设计了一套科学的“成长计划”

  1. 不贪多: 先学简单的,再学难的,一步步来。
  2. 不模糊: 哪里做得好、哪里做得差,给出具体的反馈,而不是笼统的表扬或批评。

这种方法让 AI 从一个“只会死记硬背的机器”,进化成了一个“懂得思考、能灵活应对各种手机操作难题的超级助手”。未来,我们可能真的可以完全放心地把手机交给它,让它帮我们处理各种复杂的日常任务。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →