CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

本文提出了名为 CGL 的持续 GUI 学习框架,通过基于策略熵动态调整监督微调与强化学习的比例,并采用将 SFT 梯度投影到 GRPO 锚点梯度上的梯度手术策略,有效解决了 GUI 智能体在适应新任务时遗忘旧知识的难题,同时发布了 AndroidControl-CL 基准以评估该性能。

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个非常现实的问题:如何让一个“手机操作机器人”(GUI Agent)在不断学习新软件、新任务的同时,不会把以前学过的本事给忘了。

想象一下,你正在训练一个超级聪明的机器人助手,帮你在手机上点外卖、查邮件、订机票。

1. 遇到的难题:学新忘旧

现在的手机 App 更新换代太快了。今天学的是“淘宝”怎么买东西,明天就要学“微信”怎么发红包,后天又要学“钉钉”怎么开会。

  • 传统方法 A(SFT,监督微调): 就像死记硬背。老师直接告诉机器人:“在这个界面,点这个按钮”。机器人学得非常快,马上就能上手新任务。但是,它有个大毛病:脑子容易“ overwritten"(被覆盖)。为了记住新任务,它把旧任务的记忆全擦掉了。就像你为了背新的英语单词,把以前背的古诗全忘了。
  • 传统方法 B(RL,强化学习): 就像自己摸索。机器人被扔进新环境,试错,做对了给奖励,做错了没奖励。这种方法很稳,不容易忘旧本事,因为它是在探索规律。但是,学得太慢了,而且如果一开始完全不知道怎么玩,它可能永远找不到正确的路,一直在原地打转。

论文的核心发现: 这两种方法单独用都有缺陷。SFT 学得快但忘得快;RL 忘得慢但学得慢。

2. 解决方案:CGL 框架(给机器人装个“智能大脑”)

作者提出了一个叫 CGL 的新框架,它的核心思想是:让“死记硬背”和“自己摸索”完美配合,互相补台。

为了做到这一点,他们用了三个绝招(用生活中的例子来解释):

绝招一:错误感知路由(Error-Aware Routing)—— “迷路时立刻看地图”

  • 场景: 机器人面对一个全新的 App(比如第一次用“小红书”),它完全不知道点哪里。如果让它自己瞎试(RL),它可能试了一万次都点错,效率极低。
  • 做法: 系统会盯着机器人。如果它发现机器人试了好几次都找不到路(奖励太低),系统就会立刻介入,直接给它看正确答案(SFT 演示),告诉它:“别瞎试了,点这儿!”
  • 比喻: 就像你开车去陌生地方,如果导航(RL)让你绕了半小时还没到,你直接打开地图软件(SFT)看正确路线,快速纠正方向。

绝招二:熵调节微调(Entropy-Regulated Tuning)—— “先撒野,后收心”

  • 场景: 机器人刚学新任务时,需要大胆尝试(高不确定性/高熵);学稳了之后,需要精准执行(低不确定性/低熵)。
  • 做法: 作者设计了一个动态开关(λ\lambda)。
    • 刚开始(热身期): 机器人很迷茫,系统就加大“死记硬背”的权重,强行把它的注意力拉回到正确动作上,打破它错误的习惯。
    • 后期(收敛期): 机器人已经有点感觉了,系统就慢慢减少“死记硬背”的权重,让它主要靠“自己摸索”(RL)来巩固,这样就不会把旧的记忆覆盖掉。
  • 比喻: 就像教小孩学骑车。刚开始他摇摇晃晃,你得紧紧扶着(SFT 介入);等他平衡感好了,你就慢慢松手(减少 SFT),让他自己骑(RL),这样他既学会了新技能,又不会忘记怎么保持平衡。

绝招三:梯度手术(Gradient Surgery)—— “给大脑做微创手术”

  • 场景: 当机器人同时学习“新任务”和“复习旧任务”时,大脑里的指令可能会打架。比如,学新任务时,大脑想往左转;但复习旧任务时,大脑想往右转。两个力一抵消,机器人就傻了,或者把旧知识弄坏了。
  • 做法: 作者发明了一种“手术刀”。当发现新任务的指令(梯度)和旧任务的指令方向相反(打架)时,手术刀会把新指令里冲突的那部分切掉,只保留不冲突的部分。
  • 比喻: 就像你在写文章。你想加一段新内容(新任务),但这会破坏你原本精彩的段落(旧任务)。编辑(手术刀)会帮你把新内容里破坏原意的那几句删掉,只保留能锦上添花的部分,这样文章既更新了,又没变味。

3. 新工具:AndroidControl-CL 基准

为了测试这个方法好不好用,作者还造了一个专门的“考场”(Benchmark)。

  • 以前的考试题目太单一,或者太简单。
  • 这个新考场把 App 分成了 7 大类(购物、办公、社交、出行等),像闯关一样,让机器人一个接一个地学。
  • 结果: 在这个考场上,他们的 CGL 方法不仅学新任务快,而且几乎完全没忘以前的本事(遗忘率接近 0),比目前最厉害的其他方法都要好。

总结

这篇论文就像是在教一个超级机器人如何“终身学习”

它不再强迫机器人在“学得快”和“记得牢”之间二选一,而是通过智能切换(该看地图时看地图,该自己摸索时自己摸索)和精细手术(切除冲突指令),让机器人既能迅速适应新 App 的更新,又能稳稳地守住老本行。

一句话概括: 这是一个让 AI 助手既能“见多识广”(快速学新),又能“不忘初心”(不忘旧技)的聪明训练法。