Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation

该论文提出了一种基于执行反馈强化学习的分阶段训练方法,通过构建包含协调器与状态追踪器的多智能体框架(CES),有效解决了长周期 GUI 自动化任务中单智能体能力耦合与状态感知缺失的问题,显著提升了系统的规划与状态管理能力。

Zehao Deng, Tianjie Ju, Zheng Wu, Zhuosheng Zhang, Gongshen Liu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个非常棘手的问题:如何让 AI 助手(GUI Agent)像人类一样,从容地处理那些步骤繁多、跨度很长的复杂任务(比如“帮我查个资料,下载图片,再发到另一个社交软件上”)。

以前的 AI 助手在处理这种“长跑”任务时,经常跑着跑着就迷路了,或者忘了刚才走到哪一步。这篇论文提出了一套全新的“三人团队”方案,并给它们装上了“强化学习”的大脑。

我们可以用**“开一家跨国物流公司”**的比喻来理解这项技术:

1. 以前的痛点:让一个“全能超人”干所有活

以前的 AI 模型就像是一个**“全能超人”**。老板(用户)给他一个模糊的指令:“把那个文件发过去”。

  • 问题一(能力冲突): 这个超人既要负责看地图、规划路线(高层规划),又要负责亲自开车、搬箱子(底层执行)。结果就是,他脑子里想得太复杂,手就笨了;或者光顾着搬箱子,忘了要去哪。这就叫“责任耦合”,导致他经常顾此失彼。
  • 问题二(记性不好): 任务太长了,超人走着走着,看到个熟悉的路口(比如手机主屏幕),就忘了自己刚才是在“查资料”阶段,还是“下载”阶段。他只能靠眼前的路标(截图)猜,但路标经常骗人,导致他走错路,任务失败。

2. 新方案:CES 三人天团

为了解决这个问题,作者把“全能超人”拆成了三个各司其职的专家,组成了一个CES 团队

  • 🧠 指挥官 (Coordinator):负责“出谋划策”

    • 角色: 就像公司的项目经理
    • 工作: 他只看老板的大目标(比如“发文件”),然后把它拆解成一个个具体的小指令(“先打开浏览器,再搜索关键词”)。他不负责亲自去点屏幕,只负责下命令。
    • 比喻: 他就像下棋时的棋手,只思考下一步怎么走,不亲自去拿棋子。
  • 🤖 执行者 (Executor):负责“动手干活”

    • 角色: 就像公司的熟练工人司机
    • 工作: 它只负责接收指挥官的简单指令(比如“点击那个红色的按钮”),然后精准地执行。它不需要知道为什么要点击,也不需要记之前的历史,只要手快、眼准就行。
    • 比喻: 它就像赛车手,只负责踩油门和打方向盘,不需要管比赛策略。
  • 📝 状态追踪器 (State Tracker):负责“记日记”

    • 角色: 就像公司的秘书导航员
    • 工作: 这是这篇论文最核心的创新。当执行者做完一步后,秘书会立刻把刚才发生了什么,用人话总结成一句话(比如“文件已经下载好了,现在准备上传”),并更新到“任务进度表”里。
    • 比喻: 它就像GPS 导航的历史记录。不管你在哪里迷路,它都能告诉你:“你现在在任务的第 3 步,刚才已经过了那个红绿灯,接下来要去加油站。”它解决了“记性不好”的问题。

3. 核心魔法: staged Execution-Feedback RL(分阶段强化学习)

有了这三个角色,怎么训练他们呢?作者没有让他们一起乱练,而是用了一种**“分阶段特训”**的方法:

  • 第一步:先练指挥官
    • 让“执行者”和“秘书”先不动(冻结),专门训练“指挥官”。
    • 怎么练? 指挥官下指令,执行者去试。如果执行者做对了,就奖励指挥官;做错了,就惩罚。这样指挥官就学会了如何下达最清晰、最容易执行的指令。
  • 第二步:再练秘书
    • 指挥官练好了,固定住。现在专门训练“秘书”。
    • 怎么练? 秘书写“任务进度总结”,指挥官根据这个总结做决策,执行者去执行。如果最终任务成功了,说明秘书总结得(信息清晰、没遗漏);如果失败了,说明秘书总结得(漏了关键信息)。
    • 比喻: 就像教练先教教练怎么排兵布阵,等教练排好了,再教记录员怎么记战术板,让记录员知道怎么记才能让教练一眼看懂。

4. 为什么这很厉害?

  • 模块化(Plug-and-Play): 这个“指挥官 + 秘书”的模块是通用的。不管底下的“执行者”是谁(哪怕是换了一个新的 AI 模型),只要把这两个模块加上去,它的长任务能力就会瞬间变强。
  • 解决“迷路”: 通过“秘书”的高层语义总结,AI 不再需要靠猜截图来记路,而是像人类一样,脑子里有一本清晰的“任务日记”。
  • 解决“顾此失彼”: 把“想”和“做”分开,让专业的做专业的事,效率大大提升。

总结

这就好比以前我们派一个**“又当司机又当导航又当老板”的人去送快递,他经常累晕或者送错。
现在,我们派了一个
“老板(指挥官)+ 司机(执行者)+ 导航员(状态追踪器)”**的三人小组。老板只管指挥,司机只管开车,导航员负责随时提醒“我们离目的地还有多远,刚才过了哪个路口”。

通过这种分工明确加上**实战演练(强化学习)**的方法,AI 终于能像人类一样,从容地处理那些复杂、漫长的任务了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →