D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

该论文提出了 D2E 框架,通过利用大规模桌面游戏数据(包括人类演示和伪标签数据)预训练通用视觉 - 动作模型,成功实现了向真实世界具身 AI 任务(如机械臂操作和导航)的高效迁移,其 10 亿参数模型在性能上媲美甚至超越了参数量大 7 倍的现有模型。

Suhwan Choi, Jaeyoon Jung, Haebin Seong, Minchan Kim, Minyeong Kim, Yongjun Cho, Yoonshik Kim, Yubeen Park, Youngjae Yu, Yunsung Lee

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 D2E(从桌面到具身智能)的新框架。简单来说,它的核心思想是:与其花大价钱去训练机器人做物理动作,不如先让它在电脑游戏里“玩”个够,学会怎么思考,然后再把这些技能“移植”到真实的机器人身上。

为了让你更容易理解,我们可以把整个过程想象成**“培养一个天才机器人学徒”**的故事:

1. 痛点:教机器人太贵、太慢

想象一下,你想教一个机器人像人一样拿杯子、走路。

  • 传统方法:你需要雇佣很多人,拿着真实的机器人,一遍遍演示怎么拿杯子。这就像**“手把手教”**,不仅设备昂贵,而且收集数据的速度极慢,就像用勺子往大海里舀水,永远舀不满。
  • 现状:大语言模型(LLM)之所以聪明,是因为它们读了互联网上所有的书(海量文本数据)。但机器人却因为没有足够的“动作数据”而变得很笨。

2. 解决方案:D2E 框架的“三步走”战略

D2E 团队想出了一个绝妙的点子:既然机器人没那么多时间练手,那我们就让它先在电脑屏幕里“练级”! 电脑里的鼠标、键盘操作,本质上和机器人的手臂、轮子移动是一样的(都是“看到什么,做什么”)。

第一步:打造超级录音机(OWA Toolkit)

  • 比喻:以前的游戏录像工具就像是用普通摄像机拍视频,文件大、乱糟糟的,而且不知道玩家按了哪个键。
  • D2E 的做法:他们开发了一个叫 OWA 的工具。它就像是一个**“全知全能的超级管家”**。
    • 它不仅录制视频,还能精准记录你每一毫秒的鼠标移动、键盘敲击。
    • 压缩魔法:它能把原本巨大的数据压缩 152 倍!想象一下,把 1TB 的硬盘数据压缩成一张小 SD 卡的大小,而且还能随时快速读取。这让收集海量数据变得既便宜又快速。
    • 成果:他们收集了 300 多个小时的人类游戏演示,涵盖了 31 种不同的游戏(从《我的世界》到《赛博朋克 2077》)。

第二步:培养“通才”教练(Generalist-IDM)

  • 比喻:以前,如果你想教机器人玩《我的世界》,就得专门训练一个只会玩《我的世界》的教练。如果你想让它玩《CS:GO》,就得再请一个教练。这太累了。
  • D2E 的做法:他们训练了一个**“通才教练”(Generalist-IDM)**。
    • 这个教练看过所有收集到的游戏数据,学会了**“举一反三”**。它不需要专门学习某个游戏,只要看到画面,就能猜出玩家下一步想按什么键、移多少鼠标。
    • 自动标注:有了这个教练,他们就可以去 YouTube 上下载成千上万个小时的无人解说游戏视频。教练会自动分析这些视频,把“玩家做了什么”标注出来。
    • 成果:通过这种“自动标注”,他们免费获得了 1000 多个小时 的高质量数据,把总数据量扩充到了 1300 多小时。

第三步:技能迁移(VAPT)

  • 比喻:这是最神奇的一步。想象这个在电脑游戏里练了 1300 小时的“虚拟机器人”,现在要转行去干真实的体力活(比如机械臂抓取物体、机器人走路)。
  • D2E 的做法:他们把在游戏里学到的“肌肉记忆”和“决策逻辑”,直接迁移到真实的机器人模型上。
    • 这就好比一个在《模拟人生》里练了 10 年做饭的虚拟厨师,突然被派到真实厨房,发现切菜、颠勺的逻辑竟然完全通用!

3. 惊人的结果

这个 10 亿参数(1B)的小模型,虽然只有那些 70 亿参数(7B)大模型的 1/7 大小,但表现却非常惊人:

  • 机械臂操作(LIBERO 基准):成功率高达 96.6%
  • 机器人导航(CANVAS 基准):成功率高达 83.3%

这意味着什么?
这意味着,在电脑屏幕里学到的“手眼协调”和“规划能力”,完全可以无缝转移到现实世界中。 他们证明了,不需要花几百万美元去收集真实的机器人数据,只要利用互联网上海量的游戏视频,就能训练出世界级的机器人。

总结

这篇论文就像是在告诉机器人学界:

“别再死磕昂贵的物理实验了!看看电脑游戏吧,那里有取之不尽的‘动作教科书’。只要用对方法(D2E 框架),让机器人在虚拟世界里‘玩’得够多,它就能在现实世界里‘干’得漂亮。”

这不仅大大降低了机器人研究的门槛(成本降低了,数据量上去了),也为未来通用机器人的发展打开了一扇新的大门。