UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data

本文提出了名为 UltraDexGrasp 的框架,通过结合优化与规划方法生成包含 2000 万帧数据的大规模合成数据集,训练出一种仅依赖合成数据即可在真实世界中实现高成功率零样本迁移的双手灵巧抓取策略。

Sizhe Yang, Yiman Xie, Zhixuan Liang, Yang Tian, Jia Zeng, Dahua Lin, Jiangmiao Pang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你面前有一堆形状各异的物品:有的像巨大的西瓜,有的像细小的药片,有的像沉重的哑铃,有的像轻飘飘的羽毛。如果你是人类,你会怎么拿它们?

  • 拿西瓜?你会双手合抱,稳稳托住。
  • 拿药片?你会用拇指和食指轻轻捏起。
  • 拿哑铃?你会单手抓握,甚至可能需要调整手指的位置。
  • 拿羽毛?你可能需要三根手指小心翼翼地捏住。

人类的大脑天生就会根据物体的大小、形状和重量,自动选择最合适的“拿法”。但让机器人做到这一点,尤其是让两只机械手像人类一样灵活配合,一直是机器人领域的“圣杯”难题。

这篇论文介绍了一个名为 UltraDexGrasp 的突破性框架,它就像给双机械手机器人装上了一个“超级大脑”和一本“万能操作手册”。

1. 核心难题:机器人为什么“笨手笨脚”?

以前的机器人抓东西,要么只能像夹子一样(平行夹爪),要么只能单手操作。如果要两只手配合,或者面对从未见过的奇怪物体,机器人就懵了。

最大的问题在于数据。教机器人就像教小孩,需要大量的“示范”。但在现实世界里,让机器人去试错、去抓取成千上万个物体,既慢又危险,还容易把东西弄坏。这就好比你想教一个厨师做一百万道菜,但厨房里只有几样食材,这怎么教得会?

2. 解决方案:在虚拟世界里“疯狂练习”

为了解决数据短缺,作者们开发了一套超级数据生成流水线

  • 虚拟工厂:他们在电脑里建了一个巨大的虚拟工厂,里面有 1000 种不同的物体(从 5 克的小珠子到 1 公斤的大铁块)。
  • 智能教练(优化算法):他们设计了一个“智能教练”,它不是靠运气乱抓,而是通过数学计算,先算出“怎么抓最稳”、“怎么抓最省力”。这就像教练先在心里推演了无数种抓法,挑出最好的。
  • 动作导演(规划算法):算出怎么抓之后,还有一个“动作导演”负责规划机械手怎么移动过去,确保不会撞到桌子或其他东西,动作要流畅自然。
  • 海量训练:这套系统不知疲倦地工作,生成了2000 万帧(20M)的抓取数据!这相当于让机器人在虚拟世界里,把 1000 种物体抓了无数遍,涵盖了单手抓、双手抓、捏、托等各种姿势。

这就好比让机器人先在一个无限大的虚拟游乐场里,把各种抓东西的技巧练到了“肌肉记忆”的程度。

3. 大脑升级:从“死记硬背”到“举一反三”

有了海量数据,作者们训练了一个AI 策略模型(也就是机器人的大脑)。

  • 输入:机器人戴上“眼睛”(摄像头),看到物体的点云(就像看到物体的 3D 轮廓)。
  • 思考:这个大脑不像以前的机器人那样死板地执行指令。它像人类一样,看一眼物体,就能瞬间判断:“哦,这是个大家伙,得用双手抱”或者“这是个滑溜溜的小东西,得用三根手指捏”。
  • 输出:直接告诉机械手:“往左移一点,手指张开,然后合拢”。

这个大脑特别厉害的地方在于,它是在纯虚拟数据上训练的,但到了现实世界,它居然能直接上手,而且不需要重新学习(这叫“零样本迁移”)。

4. 实战表现:从实验室到真实世界

作者们把训练好的机器人带到了现实世界进行测试:

  • 测试对象:25 个从未见过的物体,有的只有 3.6 克重(像一片羽毛),有的重达 1 公斤(像一个大水壶),有的形状极不规则。
  • 结果:机器人的成功率高达 81.2%
    • 面对小物体,它灵活地用“三指捏”或“二指捏”。
    • 面对大物体,它果断切换成“双手抱”。
    • 面对中等物体,它能用整只手稳稳握住。

相比之下,以前的其他方法(比如只能单手抓的,或者只能抓特定形状的)成功率只有 40% 到 60% 左右。

5. 总结:这意味着什么?

这篇论文就像给机器人界带来了一位全能管家

  • 以前:机器人是“偏科生”,只会抓一种东西,换个形状就抓不住。
  • 现在:UltraDexGrasp 让机器人变成了“通才”。它不再需要人类手把手教每一个动作,而是通过阅读一本由 2000 万条虚拟经验写成的“百科全书”,学会了如何像人类一样,根据物体的特性,灵活地选择双手配合或单手操作。

一句话概括
作者们用“虚拟世界的大规模模拟训练”,教会了双机械手机器人如何像人类一样,灵活、聪明地抓取各种形状和大小的物体,并且这套技能可以直接从电脑“下载”到真实的机器人身上,让它们真正具备了在复杂环境中工作的能力。