D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

本文提出了 D-REX,一种基于高斯溅射的可微分实 - 仿 - 实引擎,通过从真实世界视觉与机器人控制信号中自动识别物体质量以构建高保真数字孪生,并结合人类演示迁移技术训练力感知抓取策略,从而有效缩小了仿真到现实的差距并实现了鲁棒的灵巧抓取。

Haozhe Lou, Mingtong Zhang, Haoran Geng, Hanyang Zhou, Sicheng He, Zhiyuan Gao, Siheng Zhao, Jiageng Mao, Pieter Abbeel, Jitendra Malik, Daniel Seita, Yue Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 D-REX 的超级智能系统,它的核心目标非常明确:让机器人像人类一样,通过“看”和“摸”来学会灵巧地抓取各种物体,并且能完美地从电脑模拟世界过渡到现实世界。

为了让你更容易理解,我们可以把 D-REX 想象成一个**“拥有透视眼的超级厨师学徒”**。

1. 核心难题:为什么机器人这么“笨”?

想象一下,你在电脑里训练一个机器人厨师。在电脑里,你可以精确控制一切:桌子的摩擦力、勺子的重量、锅的材质。但是,当你把这个机器人放到真实的厨房里时,它可能会把鸡蛋捏碎,或者根本拿不起那个看起来很轻但实际上很重的铁锅。

这就是**“虚实鸿沟” (Sim-to-Real Gap)**。电脑里的物理规则(比如物体多重、有多滑)和现实世界往往对不上。以前的方法通常是“蒙着猜”(随机调整参数),或者需要工程师手动测量每一个物体的重量,效率很低。

2. D-REX 的绝招:三步走战略

D-REX 不需要工程师拿尺子和秤去量,它自己就能搞定。它的工作流程就像是一个**“观察 - 推理 - 实战”**的闭环:

第一步:打造“数字双胞胎” (Real-to-Sim)

  • 比喻:就像是用手机拍一段视频,然后 AI 在电脑里用这些照片“捏”出了一个和现实一模一样的 3D 模型。
  • 技术点:它使用了高斯泼溅 (Gaussian Splatting) 技术。你可以把它想象成用无数颗发光的、半透明的“颜料点”来重建物体。这些点不仅让物体看起来非常逼真(连反光和纹理都有),还能生成精确的 3D 网格,让机器人知道哪里是硬的,哪里会碰撞。

第二步:像侦探一样“猜”重量 (Mass Identification)

  • 比喻:这是 D-REX 最厉害的地方。想象你在玩一个游戏,电脑里有一个看不见的“推土机”在推一个箱子。
    • 在现实世界,你推了一下箱子,它滑行了 10 厘米。
    • 在电脑里,你推了同样的力,箱子却滑行了 20 厘米。
    • 这说明什么?说明电脑里的箱子太轻了
    • D-REX 会不断调整电脑里箱子的“虚拟重量”,直到电脑里箱子的滑行距离和现实世界完全一致
  • 技术点:这是一个**“可微分物理引擎”**。简单来说,就是让物理模拟过程像数学公式一样可以“求导”(反向计算)。它通过对比机器人推物体的视频和电脑模拟的视频,自动算出物体到底多重。不需要任何传感器,纯靠“看”视频就能算出重量。

第三步:向人类学习“手感” (Learning from Human Videos)

  • 比喻:有了准确的重量数据后,机器人怎么抓?它不需要自己瞎试。它直接看人类抓东西的视频。
    • 比如,人类抓一个轻的饼干,手劲很小;抓一个重的番茄酱瓶子,手劲很大。
    • D-REX 会把人类的动作“翻译”成机器人的动作,并且根据刚才算出来的重量,自动调整抓握的力度
    • 如果算出瓶子重,它就自动加大手指的电流(力度);如果算出轻,它就温柔一点。
  • 技术点:它把人类的视频转化为机器人的指令,并且训练出一个**“力感知策略”**。这意味着机器人不再是死板地执行动作,而是像人一样,知道“这个物体重,我要用力抓;那个物体轻,我要轻拿轻放”。

3. 为什么这很酷?(实际效果)

  • 不用称重:以前机器人抓东西,如果不知道重量,抓轻了会掉,抓重了会捏碎。D-REX 自己就能算出重量,所以它抓什么都能稳准狠。
  • 适应性强:实验显示,哪怕物体形状千奇百怪(比如乐高积木、番茄酱瓶、曲奇饼干),或者重量差异巨大(从 50 克到 1 公斤),D-REX 都能通过调整力度,成功抓取。
  • 无缝切换:它在电脑里练好的本事,直接就能在真机器上跑,成功率极高。

总结

D-REX 就像一个拥有“透视眼”和“直觉”的机器人学徒:

  1. 它先看一眼物体,在电脑里造出一个完美的数字替身
  2. 它通过推一推这个替身,反推出物体真实的重量
  3. 它看着人类怎么抓,结合刚才算出的重量,学会了该用多大的力气

最终,它打破了虚拟和现实的墙,让机器人不再需要人类手把手教每一个物体的重量,就能在复杂的现实世界中灵巧地干活。这为未来让机器人进入家庭、工厂,像人一样灵活工作铺平了道路。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →