OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

该论文提出了 OSExpert 框架,通过基于深度优先搜索的 GUI 探索算法自动发现并构建细粒度动作原语与技能组合课程,显著提升了通用计算机使用代理在复杂任务中的表现(提升约 20%)及效率(缩小与人类差距约 80%),使其更接近专家水平。

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OSExpert 的新系统,它的目标是让电脑操作机器人(AI Agent)从“新手小白”进化成“行业专家”。

为了让你更容易理解,我们可以把现在的 AI 机器人想象成刚入职的实习生,而 OSExpert 则是一套**“沉浸式师徒制”培训方案**。

1. 现状:为什么现在的 AI 机器人不够用?

目前的电脑操作 AI(比如能帮你点鼠标、填表格的机器人)虽然很聪明,但在处理复杂、专业的任务时,表现远不如人类专家。

  • 像无头苍蝇:遇到没见过的软件界面,它们就懵了,只能靠“瞎猜”和“试错”。
  • 效率极低:人类专家点 3 下就能完成的任务,AI 可能需要点 50 下,甚至点错重来,耗时是人类的 5 到 50 倍。
  • 记不住细节:让它们做精细操作(比如把图片里的某个物体精准抠出来,或者把文字拖到特定位置),它们经常手抖,做不到位。

核心问题:以前的 AI 是靠看大量人类操作视频“死记硬背”学会的。但现实世界的软件界面千变万化,死记硬背行不通,它们缺乏对特定软件内部逻辑的深刻理解。

2. 解决方案:OSExpert 的“三招”绝学

OSExpert 不再让 AI 去背视频,而是直接把它扔进软件里,让它自己探索、自己总结、自己练级

第一招:深度探索(GUI-DFS)—— 像“探险家”一样扫雷

  • 比喻:想象你要熟悉一个巨大的迷宫(新软件)。以前的 AI 是站在门口猜路,或者拿着别人画的残缺地图走。
  • OSExpert 的做法:它派出一个“探险家”,系统地遍历迷宫的每一个岔路口。
    • 它点击每一个菜单,打开每一个对话框,看看会发生什么。
    • 它像玩“扫雷”一样,把软件里所有基础功能(比如“保存”、“打印”、“加粗”)都摸一遍,并记录下来:“哦,原来点这个按钮,文件就保存了。”
    • 这个过程是自动的,不需要人类手把手教。

第二招:技能组装(自创课程)—— 像“乐高大师”一样拼搭

  • 比喻:探险家摸清了所有基础积木(基础功能)后,OSExpert 开始教它怎么搭出复杂的城堡。
  • OSExpert 的做法
    • 它把刚才摸到的基础功能(比如“打开文件”、“插入图片”、“调整大小”)组合起来。
    • 它自己给自己出题:“如果我要做一个‘带图片的精美报告’,我该怎么把这些基础积木拼起来?”
    • 通过这种自我教学,AI 学会了处理长链条的复杂任务,而不再是一步步瞎猜。

第三招:精细动作库(动作原语)—— 像“外科医生”一样精准

  • 比喻:有些任务需要极高的精度,比如“用剪刀把图片里的猫剪下来,边缘要平滑”。普通 AI 的手太笨,剪得乱七八糟。
  • OSExpert 的做法
    • 它建立了一个**“精细动作工具箱”**。里面预存了一些高精度的操作模板(比如“自动识别边缘并裁剪”)。
    • 当遇到这种精细任务时,AI 会调用这个工具箱里的“手术刀”,而不是靠蛮力去点。
    • 如果成功了,这个“手术刀”用法就被记入技能书,下次直接复用。

3. 结果:从“慢吞吞”到“快准狠”

经过这套训练,OSExpert 的 AI 发生了质的飞跃:

  • 成功率大增:在复杂的长任务中,成功率从不到 10% 提升到了 30% 左右(虽然还没到人类 100% 的水平,但已经是巨大的进步)。
  • 效率飙升:它不再盲目试错,而是直接调用学过的“技能包”。完成任务的时间缩短了约 80%,真正接近了人类专家的速度。
  • 举一反三:即使遇到没见过的软件界面(比如全新的设计),它也能利用探索到的逻辑快速上手,而不是彻底瘫痪。

4. 总结:为什么这很重要?

这就好比:

  • 以前的 AI:给你一本《如何操作 Photoshop》的说明书,让你照着读。遇到新软件,说明书没用,你就废了。
  • OSExpert 的 AI:把你关进一个房间里,给你一把钥匙,让你自己去把所有抽屉打开、把所有按钮按一遍,然后自己写了一本《操作指南》。下次不管给你什么新软件,你都能迅速摸索出规律,写出新的指南。

一句话概括
OSExpert 让 AI 从“死记硬背的做题家”变成了“善于探索、懂得总结的实战派专家”,让电脑操作机器人真正具备了处理专业工作的能力,而且速度更快、更靠谱。