D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 D-REX 的超级智能系统，它的核心目标非常明确：让机器人像人类一样，通过“看”和“摸”来学会灵巧地抓取各种物体，并且能完美地从电脑模拟世界过渡到现实世界。

为了让你更容易理解，我们可以把 D-REX 想象成一个**“拥有透视眼的超级厨师学徒”**。

1. 核心难题：为什么机器人这么“笨”？

想象一下，你在电脑里训练一个机器人厨师。在电脑里，你可以精确控制一切：桌子的摩擦力、勺子的重量、锅的材质。但是，当你把这个机器人放到真实的厨房里时，它可能会把鸡蛋捏碎，或者根本拿不起那个看起来很轻但实际上很重的铁锅。

这就是**“虚实鸿沟” (Sim-to-Real Gap)**。电脑里的物理规则（比如物体多重、有多滑）和现实世界往往对不上。以前的方法通常是“蒙着猜”（随机调整参数），或者需要工程师手动测量每一个物体的重量，效率很低。

2. D-REX 的绝招：三步走战略

D-REX 不需要工程师拿尺子和秤去量，它自己就能搞定。它的工作流程就像是一个**“观察 - 推理 - 实战”**的闭环：

第一步：打造“数字双胞胎” (Real-to-Sim)

比喻：就像是用手机拍一段视频，然后 AI 在电脑里用这些照片“捏”出了一个和现实一模一样的 3D 模型。
技术点：它使用了高斯泼溅 (Gaussian Splatting) 技术。你可以把它想象成用无数颗发光的、半透明的“颜料点”来重建物体。这些点不仅让物体看起来非常逼真（连反光和纹理都有），还能生成精确的 3D 网格，让机器人知道哪里是硬的，哪里会碰撞。

第二步：像侦探一样“猜”重量 (Mass Identification)

比喻：这是 D-REX 最厉害的地方。想象你在玩一个游戏，电脑里有一个看不见的“推土机”在推一个箱子。
- 在现实世界，你推了一下箱子，它滑行了 10 厘米。
- 在电脑里，你推了同样的力，箱子却滑行了 20 厘米。
- 这说明什么？说明电脑里的箱子太轻了！
- D-REX 会不断调整电脑里箱子的“虚拟重量”，直到电脑里箱子的滑行距离和现实世界完全一致。
技术点：这是一个**“可微分物理引擎”**。简单来说，就是让物理模拟过程像数学公式一样可以“求导”（反向计算）。它通过对比机器人推物体的视频和电脑模拟的视频，自动算出物体到底多重。不需要任何传感器，纯靠“看”视频就能算出重量。

第三步：向人类学习“手感” (Learning from Human Videos)

比喻：有了准确的重量数据后，机器人怎么抓？它不需要自己瞎试。它直接看人类抓东西的视频。
- 比如，人类抓一个轻的饼干，手劲很小；抓一个重的番茄酱瓶子，手劲很大。
- D-REX 会把人类的动作“翻译”成机器人的动作，并且根据刚才算出来的重量，自动调整抓握的力度。
- 如果算出瓶子重，它就自动加大手指的电流（力度）；如果算出轻，它就温柔一点。
技术点：它把人类的视频转化为机器人的指令，并且训练出一个**“力感知策略”**。这意味着机器人不再是死板地执行动作，而是像人一样，知道“这个物体重，我要用力抓；那个物体轻，我要轻拿轻放”。

3. 为什么这很酷？（实际效果）

不用称重：以前机器人抓东西，如果不知道重量，抓轻了会掉，抓重了会捏碎。D-REX 自己就能算出重量，所以它抓什么都能稳准狠。
适应性强：实验显示，哪怕物体形状千奇百怪（比如乐高积木、番茄酱瓶、曲奇饼干），或者重量差异巨大（从 50 克到 1 公斤），D-REX 都能通过调整力度，成功抓取。
无缝切换：它在电脑里练好的本事，直接就能在真机器上跑，成功率极高。

总结

D-REX 就像一个拥有“透视眼”和“直觉”的机器人学徒：

它先看一眼物体，在电脑里造出一个完美的数字替身。
它通过推一推这个替身，反推出物体真实的重量。
它看着人类怎么抓，结合刚才算出的重量，学会了该用多大的力气。

最终，它打破了虚拟和现实的墙，让机器人不再需要人类手把手教每一个物体的重量，就能在复杂的现实世界中灵巧地干活。这为未来让机器人进入家庭、工厂，像人一样灵活工作铺平了道路。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为 《D-REX: DIFFERENTIABLE REAL-TO-SIM-TO-REAL ENGINE FOR LEARNING DEXTEROUS GRASPING》（D-REX：用于灵巧抓取学习的可微分实 - 仿 - 实引擎）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

核心挑战：机器人领域广泛使用仿真（Simulation）来生成数据和训练策略，但“仿真到现实”（Sim-to-Real）的鸿沟依然存在，特别是在物理参数识别（如物体质量、摩擦力等）方面。
现有局限：
- 传统的仿真往往假设物理参数已知或准确，但仅凭视觉观测估计的几何形状和质量通常与真实值存在偏差，导致策略在现实世界中失效。
- 现有的系统识别方法通常不可微分，难以通过梯度优化直接从视觉观测中反推物理参数。
- 从人类演示视频学习灵巧抓取时，由于人形与机器人形态差异（Embodiment Gap）以及缺乏对物体物理属性（如质量）的感知，导致力控策略难以泛化。
目标：构建一个可微分的“实 - 仿 - 实”（Real-to-Sim-to-Real），能够从真实世界的视觉观测和机器人控制信号中自动识别物体质量，并据此训练具备力感知能力的灵巧抓取策略，从而缩小仿真与现实的差距。

2. 方法论 (Methodology)

D-REX 框架基于 MuJoCo 物理引擎、Brax 可微分引擎和 GradSim，结合 高斯泼溅（Gaussian Splatting）技术，分为四个主要步骤（如图 2 所示）：

2.1 视觉与几何重建 (Visual and Geometric Reconstruction)

输入：场景视频、物体中心视频。
技术：利用 **3D Gaussian Splatting **(3DGS) 和 2D Gaussian Splatting 进行重建。
- 3DGS：用于生成高保真的视觉渲染。
- 2DGS（带表面法线估计）用于生成精确的几何碰撞网格（Collision Mesh），作为物理仿真的输入。
输出：高保真的数字孪生场景，包含碰撞网格 $K$ 和视觉高斯粒子 $P$ 。

2.2 基于可微分引擎的质量识别 (Mass Identification)

核心创新：利用可微分物理引擎，通过最小化仿真轨迹与真实轨迹的差异来优化物体质量 $m$ 。
流程：
1. 使用视觉 - 语言模型（VLM）生成初始的物理参数（MJCF 格式）。
2. 在真实世界和仿真中执行相同的机器人推/抓取动作。
3. 利用 FoundationPose 获取真实物体的 6-DoF 位姿轨迹 $s^{real}_t$ 。
4. 在仿真中执行相同动作，得到仿真轨迹 $s^{sim}_t(m)$ 。
5. 优化目标：最小化轨迹损失 $L_{traj}(m) = \sum ||s^{sim}_t(m) - s^{real}_t||^2$ 。
6. 通过 半隐式欧拉积分（Semi-Implicit Euler）和自动微分技术，计算损失对质量 $m$ 的梯度，从而精确反推物体质量。
优势：无需接触点或真实质量的先验知识，仅依赖视觉观测和机器人控制信号即可实现端到端的质量识别。

2.3 从人类演示到机器人演示的迁移 (Transferring Human Demonstrations)

问题：直接模仿人类手部动作难以适应机器人形态和不同质量的物体。
方法：
1. 使用 HaMeR 和 MCC-HO 从人类视频中提取人手和物体的 3D 姿态。
2. 利用 Dex-Retargeting 将人类手 - 物姿态映射到机器人手部关节角度。
3. 生成机器人可执行的轨迹数据，作为策略学习的监督信号。

2.4 力感知策略学习 (Force-Aware Policy Learning)

策略架构：一个多输出神经网络 $\pi_\phi$ ，输入为物体碰撞网格顶点（经位置编码）和识别出的物体质量 $m$ 。
输出：
1. 机器人关节位置 $\hat{A}$ 。
2. 接触约束奖励 $\hat{r}$ 。
3. 抓取力约束 $\hat{f}$ ：显式地根据质量 $m$ 计算所需的抓取力（ $\hat{f} \propto m \cdot g$ ）。
训练：采用两阶段训练：先在人类演示数据上进行监督学习，再在仿真环境中进行基于力约束的强化微调（Simulation-based Refinement）。

3. 主要贡献 (Key Contributions)

D-REX 框架：提出了一种端到端的可微分实 - 仿 - 实框架，能够仅通过视觉观测和机器人交互信号自动识别物体质量，并构建高保真数字孪生。
质量感知的力控策略：提出了一种新颖的方法，将识别出的物体质量作为条件输入，训练具备力感知能力的抓取策略。该方法将位置控制与力控制相结合，显著提升了在不同质量物体上的抓取鲁棒性。
实证验证：证明了该方法在多种几何形状和质量值的物体上，质量识别准确且鲁棒；且基于识别质量训练的策略在真实世界抓取任务中表现优异，有效缩小了 Sim-to-Real 差距。

4. 实验结果 (Results)

质量识别精度：
- 在多种形状（字母、乐高、饼干等）和不同密度的物体上进行了测试。
- 识别误差极低（百分比分位误差在 4.8% - 12.0% 之间），即使对于相同几何形状但不同密度的物体也能准确区分。
- 优化后的质量参数使得仿真轨迹与真实轨迹高度吻合。
抓取成功率：
- 质量匹配实验：当策略训练时的质量与测试物体质量匹配时，成功率最高（80%）；若质量不匹配（力控错误），成功率大幅下降（30%-40%），证明了力感知的重要性。
- 自动识别 vs 真值：使用自动识别质量训练的策略，其表现与使用真实质量（Ground Truth）训练的策略相当，甚至更优。
- 对比基线：在 8 种不同质量和形状的物体上，D-REX 的平均抓取成功率（76%）显著高于 DexGraspNet 2.0 和 Human2Sim2Robot 等基线方法。基线方法在物体变重时性能急剧下降，而 D-REX 保持稳健。
效率：离线重建和参数识别耗时约 30-50 分钟，推理延迟极低（约 0.5 秒），适合实时部署。

5. 意义与影响 (Significance)

解决 Sim-to-Real 痛点：提供了一种无需昂贵传感器（如力矩传感器）即可精确获取物理参数（质量）的方法，极大地降低了构建高保真仿真环境的门槛。
提升灵巧操作能力：证明了在策略中显式引入物理参数（质量）作为条件，是解决灵巧抓取中力控不稳定问题的关键。这使得机器人能够适应未知或变化的物体重量。
数据高效性：利用人类视频作为主要监督信号，结合可微分仿真进行参数校正，减少了对大量机器人真实交互数据的依赖，为通用机器人策略的学习提供了可扩展的路径。
通用性潜力：虽然当前聚焦于刚性物体和质量识别，但该框架展示了将视觉重建、物理识别和策略学习统一在可微分管道中的潜力，为未来处理更复杂的物理属性（如摩擦、刚度）奠定了基础。

总结： D-REX 通过结合高斯泼溅重建、可微分物理仿真和人类演示迁移，成功构建了一个能够“理解”物体物理属性（特别是质量）的机器人学习系统。它不仅实现了高精度的参数识别，还利用这些物理知识训练出了在真实世界中表现卓越的灵巧抓取策略，是迈向通用、鲁棒机器人系统的重要一步。