D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 D2E（从桌面到具身智能）的新框架。简单来说，它的核心思想是：与其花大价钱去训练机器人做物理动作，不如先让它在电脑游戏里“玩”个够，学会怎么思考，然后再把这些技能“移植”到真实的机器人身上。

为了让你更容易理解，我们可以把整个过程想象成**“培养一个天才机器人学徒”**的故事：

1. 痛点：教机器人太贵、太慢

想象一下，你想教一个机器人像人一样拿杯子、走路。

传统方法：你需要雇佣很多人，拿着真实的机器人，一遍遍演示怎么拿杯子。这就像**“手把手教”**，不仅设备昂贵，而且收集数据的速度极慢，就像用勺子往大海里舀水，永远舀不满。
现状：大语言模型（LLM）之所以聪明，是因为它们读了互联网上所有的书（海量文本数据）。但机器人却因为没有足够的“动作数据”而变得很笨。

2. 解决方案：D2E 框架的“三步走”战略

D2E 团队想出了一个绝妙的点子：既然机器人没那么多时间练手，那我们就让它先在电脑屏幕里“练级”！ 电脑里的鼠标、键盘操作，本质上和机器人的手臂、轮子移动是一样的（都是“看到什么，做什么”）。

第一步：打造超级录音机（OWA Toolkit）

比喻：以前的游戏录像工具就像是用普通摄像机拍视频，文件大、乱糟糟的，而且不知道玩家按了哪个键。
D2E 的做法：他们开发了一个叫 OWA 的工具。它就像是一个**“全知全能的超级管家”**。
- 它不仅录制视频，还能精准记录你每一毫秒的鼠标移动、键盘敲击。
- 压缩魔法：它能把原本巨大的数据压缩 152 倍！想象一下，把 1TB 的硬盘数据压缩成一张小 SD 卡的大小，而且还能随时快速读取。这让收集海量数据变得既便宜又快速。
- 成果：他们收集了 300 多个小时的人类游戏演示，涵盖了 31 种不同的游戏（从《我的世界》到《赛博朋克 2077》）。

第二步：培养“通才”教练（Generalist-IDM）

比喻：以前，如果你想教机器人玩《我的世界》，就得专门训练一个只会玩《我的世界》的教练。如果你想让它玩《CS:GO》，就得再请一个教练。这太累了。
D2E 的做法：他们训练了一个**“通才教练”（Generalist-IDM）**。
- 这个教练看过所有收集到的游戏数据，学会了**“举一反三”**。它不需要专门学习某个游戏，只要看到画面，就能猜出玩家下一步想按什么键、移多少鼠标。
- 自动标注：有了这个教练，他们就可以去 YouTube 上下载成千上万个小时的无人解说游戏视频。教练会自动分析这些视频，把“玩家做了什么”标注出来。
- 成果：通过这种“自动标注”，他们免费获得了 1000 多个小时 的高质量数据，把总数据量扩充到了 1300 多小时。

第三步：技能迁移（VAPT）

比喻：这是最神奇的一步。想象这个在电脑游戏里练了 1300 小时的“虚拟机器人”，现在要转行去干真实的体力活（比如机械臂抓取物体、机器人走路）。
D2E 的做法：他们把在游戏里学到的“肌肉记忆”和“决策逻辑”，直接迁移到真实的机器人模型上。
- 这就好比一个在《模拟人生》里练了 10 年做饭的虚拟厨师，突然被派到真实厨房，发现切菜、颠勺的逻辑竟然完全通用！

3. 惊人的结果

这个 10 亿参数（1B）的小模型，虽然只有那些 70 亿参数（7B）大模型的 1/7 大小，但表现却非常惊人：

机械臂操作（LIBERO 基准）：成功率高达 96.6%。
机器人导航（CANVAS 基准）：成功率高达 83.3%。

这意味着什么？
这意味着，在电脑屏幕里学到的“手眼协调”和“规划能力”，完全可以无缝转移到现实世界中。 他们证明了，不需要花几百万美元去收集真实的机器人数据，只要利用互联网上海量的游戏视频，就能训练出世界级的机器人。

总结

这篇论文就像是在告诉机器人学界：

“别再死磕昂贵的物理实验了！看看电脑游戏吧，那里有取之不尽的‘动作教科书’。只要用对方法（D2E 框架），让机器人在虚拟世界里‘玩’得够多，它就能在现实世界里‘干’得漂亮。”

这不仅大大降低了机器人研究的门槛（成本降低了，数据量上去了），也为未来通用机器人的发展打开了一扇新的大门。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
具身智能（Embodied AI）的发展长期受限于物理轨迹数据的收集成本。与大型语言模型（LLM）可以利用互联网规模的文本数据不同，机器人轨迹数据需要昂贵的硬件、复杂的人工操作和精细的标注，导致现有数据集规模小、领域特定且格式碎片化，无法形成真正的“数据飞轮”。

现有方案的局限：

VPT (Video PreTraining)： 仅在《Minecraft》单一领域有效，且数据私有或受限。
SIMA： 虽然展示了跨游戏泛化能力，但数据未公开。
通用性缺失： 缺乏统一的桌面交互数据标准和能够跨不同桌面应用（游戏、软件）进行泛化的预训练模型。

核心假设：
桌面环境（特别是游戏）提供了丰富的传感器 - 运动（Sensorimotor）交互，且具备结构化的“观察 - 动作”耦合。这些数字交互中习得的底层控制原语（Primitives）可以有效迁移到物理世界的机器人任务中。

2. 方法论 (Methodology)

D2E (Desktop to Embodied AI) 框架包含三个核心组件，旨在构建从桌面数据采集到机器人迁移的完整流水线：

2.1 OWA Toolkit (Open-World Agents Toolkit)

为了解决桌面数据采集的标准化和效率问题，作者开发了 OWA 工具包：

ocap (Omnimodal CAPture) 录制器： 基于 Windows API 和 GStreamer，能够以 60Hz 频率同步录制屏幕、音频、键盘和鼠标事件。它解决了传统工具（如 OBS）缺乏精确输入事件日志的问题。
OWAMcap 数据格式： 基于 MCAP 格式扩展，专为桌面数据设计。
- 标准化： 统一了屏幕、键盘、鼠标的消息模式。
- 高效压缩： 引入 MediaRef 机制，将视频流与元数据分离，使用 H.265 编码。相比传统格式（如 JSONL 或 HDF5），实现了 152 倍 的压缩率（例如 VPT 数据集从 1.06 TiB 压缩至 7.12 GiB）。
- 优化流水线： 提出了 FSLDataset（固定序列长度数据集）和自适应批量解码策略，显著提升了训练时的 I/O 吞吐量（比基线快 10 倍，磁盘读取量减少 41 倍）。
数据采集： 利用该工具收集了 335 小时 的人类演示数据，涵盖 31 款不同类型的游戏（3D/2D，FPS/模拟等）。

2.2 Generalist-IDM (通用逆动力学模型)

为了突破人工标注的瓶颈，利用互联网规模的无标签视频数据，作者训练了一个通用的逆动力学模型：

基于时间戳的事件预测 (NEP-τ)： 不同于传统的固定时间步（Tick-based）预测，该模型将交互离散化为事件序列，并直接预测事件类型及其发生的时间戳。
时序偏移 (Temporal Offset)： 引入 $\tau$ (100ms) 的未来观测窗口（Next-Event Prediction with Temporal Offset），让模型利用未来的视觉信息来推断当前的动作，显著提升了预测精度。
泛化能力： 在 259 小时的人类数据上训练后，该模型展现出强大的零样本（Zero-shot）泛化能力，能够处理未见过的游戏，并具备上下文自适应能力（如自动校准鼠标灵敏度）。
伪标签生成： 利用 Generalist-IDM 对 1000+ 小时 的 YouTube 游戏视频进行自动伪标签（Pseudo-labeling），构建了大规模训练数据集。

2.3 VAPT (Vision-Action PreTraining)

这是最终的具身智能基础模型：

架构： 基于 InternVL3-1B (1B 参数) 的多模态架构。
预训练策略： 在 OWA 收集的人类数据 + Generalist-IDM 生成的伪标签数据（总计 1.3K+ 小时）上进行视觉 - 动作预训练。
迁移学习： 将桌面预训练学到的表征直接迁移到机器人操纵（Manipulation）和导航（Navigation）任务中，无需针对机器人数据进行从头训练。

3. 关键贡献 (Key Contributions)

OWA Toolkit 与 OWAMcap 格式： 首个统一的、开源的桌面交互数据收集与存储框架。实现了高达 152 倍 的数据压缩，并提供了优化的数据加载流水线，解决了大规模桌面数据训练的 I/O 瓶颈。
Generalist-IDM： 提出了首个跨游戏、跨领域的通用逆动力学模型。它通过基于时间戳的事件预测机制，实现了在未见游戏上的强泛化，并成功将互联网规模的 YouTube 视频转化为可训练的伪标签数据。
VAPT 基础模型与迁移验证： 证明了仅用 1B 参数 的模型，通过桌面数据预训练，即可在机器人任务上达到甚至超越 7B 参数 模型（如 OpenVLA）和 3.3B 参数 模型（如 $\pi_0$ ）的性能。

4. 实验结果 (Results)

模型在标准的机器人基准测试中取得了显著成果：

机器人操纵 (LIBERO Benchmark)：
- 成功率： 达到 96.6% (Total)。
- 对比： 性能匹配或超越了 $\pi_0$ (3.3B) 和 OpenVLA (7B)。
- 长程任务： 在需要复杂动作序列的长程任务（Long-horizon）上表现尤为突出。
- 真实世界验证： 在 SO101 机械臂的“抓取 - 放置”任务中，成功率从基线的 70% 提升至 80%。
机器人导航 (CANVAS Benchmark)：
- 成功率： 达到 83.3%。
- 伪标签的作用： 在导航任务中，加入伪标签数据带来了 8% 的性能提升（从 75.3% 到 83.3%），特别是在处理误导性指令（Misleading Instructions）时效果显著。
Generalist-IDM 性能：
- 在未见过的游戏（如《Battlefield 6》和《Ogu and the Secret Forest》）上，键盘准确率从 Specialist 模型的 12% 提升至 **28%**，证明了其强大的域外泛化能力。

5. 意义与影响 (Significance)

打破数据成本壁垒： 证明了桌面数据是具身智能预训练的一种极具成本效益的替代方案。收集 335 小时桌面数据仅需 14 人/1 个月，而同等规模的机器人数据（如 DROID）需要 50 人/12 个月。
建立“数字到物理”的迁移范式： 首次系统性地验证了从数字交互（键盘/鼠标）中学到的传感器 - 运动原语可以直接增强物理世界的机器人控制能力。
开源与可复现性： 所有工具（OWA Toolkit）、数据集（335 小时人类数据 + 1000+ 小时伪标签数据）和模型权重均已开源，极大地降低了具身智能研究的门槛，使资源有限的实验室也能进行大规模预训练。
数据飞轮的新路径： 通过 Generalist-IDM 自动挖掘互联网视频，为具身智能提供了通往“互联网规模”数据的路径，解决了数据稀缺的根本问题。

总结： D2E 框架通过标准化的桌面数据采集、通用的逆动力学模型以及高效的预训练策略，成功将具身智能的研究重心从昂贵的物理数据采集转向了丰富的数字交互数据，为构建通用具身智能体开辟了一条新的、可扩展的道路。