Video-Based Reward Modeling for Computer-Use Agents

该论文提出了基于执行视频的任务奖励建模方法,通过构建 ExeVR-53k 数据集、引入对抗指令翻译生成负样本以及设计时空 Token 剪枝机制,训练出 ExeVRM 模型,使其能够仅凭用户指令和执行视频序列准确评估计算机使用代理的任务完成情况,并在多项指标上超越了 GPT-5.2 和 Gemini-3 Pro 等强基线模型。

Linxin Song, Jieyu Zhang, Huanxin Sheng, Taiwei Shi, Gupta Rahul, Yang Liu, Ranjay Krishna, Jian Kang, Jieyu Zhao

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个关于“电脑操作机器人”(Computer-Use Agents)的大难题:如何给这些机器人“打分”?

想象一下,你雇佣了一个超级聪明的机器人助手,让它帮你完成电脑上的任务,比如“帮我整理好所有发票并上传到云端”。机器人忙活了一通,最后你该怎么判断它到底做没做对呢?

这篇论文提出了一套全新的“裁判系统”,我们可以把它想象成**“看监控录像打分”**。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心痛点:以前的裁判太“死板”

以前的评估方法就像是一个只会看最终结果的考官

  • 传统方法:机器人做完任务后,考官只检查最后一张截图(比如文件夹里有没有文件)。如果文件在,就满分;如果不在,就零分。
  • 问题:这就像你让机器人去“把猫从树上救下来”,结果它把猫救下来了,但中间不小心把树烧了。传统考官只看“猫下来了”这个结果,就给了满分,完全忽略了过程太暴力、甚至搞砸了其他东西。
  • 更糟的是:很多机器人内部怎么思考、怎么操作(比如它心里想“先点这里,再点那里”),人类是看不见的。以前的裁判必须依赖这些内部代码,一旦换了个机器人,裁判就看不懂了。

2. 新方案:ExeVRM —— “只看录像的金牌裁判”

这篇论文提出了一种叫 ExeVRM 的模型,它的核心思想是:别管机器人脑子里在想什么,只看它操作电脑时屏幕上的“监控录像”。

  • 比喻:这就好比体育比赛。以前裁判要看运动员的“内心独白”才能打分,现在裁判直接看比赛录像。不管运动员是用什么姿势、什么策略,只要录像显示他完成了动作,裁判就能打分。
  • 优势:因为只看屏幕画面(视频),所以这个裁判对任何品牌的机器人(无论是用谷歌的、微软的还是自研的)都一视同仁,非常公平且通用。

3. 三大挑战与“独门秘籍”

要把“看录像打分”这件事做好,作者遇到了三个大麻烦,并想出了三个巧妙的解决办法:

挑战一:录像太啰嗦,全是废话

  • 问题:电脑操作时,屏幕上 90% 的地方(比如任务栏、背景壁纸、没动的菜单)都是静止的。如果让裁判看每一帧,就像让你看一部电影,但 90% 的时间画面都是黑屏或静止的,只有最后 1 秒主角动了。这样既浪费精力,又容易让裁判走神。
  • 秘籍:时空剪枝(Spatiotemporal Token Pruning)
    • 比喻:想象你在剪辑一部电影。
      • 空间剪枝 (STP):把画面里那些永远不动的“背景板”(比如桌面的壁纸)直接裁掉,只保留有内容的区域。
      • 时间剪枝 (TTP):如果连续 10 秒画面都没变,那就只保留第 1 秒和第 10 秒,中间那 8 秒直接剪掉。
    • 效果:把一部 1 小时的“废话连篇”的录像,剪辑成只有 5 分钟的“精华版”,既省内存,又让裁判能一眼看到关键动作(比如鼠标点击了哪里,弹窗出现了没有)。

挑战二:很难找到“做错了”的样本

  • 问题:训练裁判需要大量“做对”和“做错”的例子。但现有的数据里,机器人大多都是“做对”的(因为做错的通常没人收集)。这就好比教一个学生,只给他看满分试卷,他永远学不会怎么避开错误。
  • 秘籍:对抗性指令翻译(Adversarial Instruction Translation)
    • 比喻:这是一个“找茬”游戏。
    • 作者让一个超级 AI 看着机器人“做对”的录像,然后故意给它编一个看起来很像,但其实完全不对的任务指令。
    • 例子:录像里机器人正在“打开浏览器”,AI 编造指令说“请帮我把浏览器关掉”。
    • 这样,原本“做对”的录像瞬间变成了“做错”的样本(因为指令是关,它却开了)。这就像给裁判提供了大量精心设计的“陷阱题”,让它学会识别细微的差别。

挑战三:看不清细节

  • 问题:电脑操作的关键往往在很小的地方(比如一个小红点、一行小字的变化)。如果为了省内存把视频压缩得太小(像看马赛克),裁判就看不清这些细节了。
  • 秘籍:高清 + 智能剪辑
    • 作者坚持使用720p 高清画面,配合上面的“剪枝”技术。
    • 比喻:就像看高清监控,虽然画面被精简了,但关键人物的脸(关键 UI 变化)依然清晰可见,不会因为压缩而变成一团模糊。

4. 结果:它比“大老板”们更厉害

作者训练出来的这个“裁判”(ExeVRM),在测试中表现惊人:

  • 准确率:它判断任务是否成功的准确率达到了 84.7%
  • 对比:它打败了包括 GPT-5.2、Gemini 3 Pro 在内的许多目前最顶尖的闭源大模型。
  • 更懂“时间”:它不仅能判断对错,还能精准指出在哪一步出错了(比如:“第 3 步点错了按钮”)。这对于修复机器人的错误至关重要。

总结

这篇论文就像是为电脑操作机器人行业建立了一套通用的、基于视觉的“黑匣子”评分系统

它不再依赖机器人内部的复杂代码,而是像人类一样,通过观看高清操作录像,利用智能剪辑去除废话,通过制造陷阱题来强化训练,最终练就了一双火眼金睛,能精准地判断机器人到底有没有帮人类把事办好。

这对于未来让 AI 真正进入千家万户、像真人一样熟练地使用电脑,是一个巨大的进步。