DexKnot: Generalizable Visuomotor Policy Learning for Dexterous Bag-Knotting Manipulation

本文提出了名为 DexKnot 的框架,通过结合关键点仿射性与扩散策略,利用从真实世界手动变形数据中学习到的形状无关表征,实现了机器人对未见过的塑料袋实例及形变进行泛化且可靠的打结操作。

Jiayuan Zhang, Ruihai Wu, Haojun Chen, Yuran Wang, Yifan Zhong, Ceyao Zhang, Yaodong Yang, Yuanpei Chen

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你手里拿着一个普通的塑料袋,想把它打个结。这对人类来说简直是“肌肉记忆”,闭着眼睛都能做。但对于机器人来说,这却是一场噩梦。

为什么?因为塑料袋太“调皮”了。它没有固定的形状,软绵绵的,风一吹、手一扯,它的样子就千变万化。这就好比让机器人去抓一团永远在变形的橡皮泥,它根本不知道下一秒钟那个“把手”会在哪里。

这篇论文介绍了一个叫 DexKnot 的新机器人系统,它专门学会了如何给各种千奇百怪的塑料袋打结,而且不管袋子怎么变形,它都能搞定。

我们可以把 DexKnot 的工作流程想象成三个步骤:

1. 给塑料袋画“穴位图”(关键点识别)

普通的机器人看塑料袋,就像看一团乱麻的像素点,信息量太大,根本记不住。
DexKnot 的做法很聪明:它不关心袋子整体长什么样,只关心袋子上的几个**“关键穴位”**(比如提手的位置)。

  • 比喻:想象你在教一个盲人朋友打结。你不会让他去摸整个袋子的形状(太复杂了),而是直接告诉他:“抓住这两个提手,就像抓住太极图里的两个鱼眼。”
  • 怎么做:研究人员让人类在现实世界里手动揉捏各种袋子,并标记出这些“穴位”。机器人通过学习,发现不管袋子怎么被揉、怎么被压,这两个“穴位”在袋子结构里的相对位置是不变的。这就好比不管一个人怎么弯腰、怎么跳舞,他的“鼻子”永远在“眼睛”下面。

2. 像“找茬游戏”一样定位(形状无关的表示学习)

当机器人面对一个从未见过的、被揉成一团的奇怪袋子时,它怎么知道“穴位”在哪?
DexKnot 玩了一个高级的“找茬游戏”。它手里有一张标准的“穴位地图”(参考图),然后拿着这个地图去新袋子上比对。

  • 比喻:这就好比你手里有一张明星的“五官特征图”。哪怕这个明星戴了墨镜、化了浓妆、或者脸被挤变形了,你依然能通过比对特征,准确指出他的“鼻子”和“嘴巴”在哪里。
  • 核心:它学会了忽略袋子表面的褶皱和颜色,只关注那些结构上不变的特征。这样,无论袋子是扁的、卷的、还是歪的,它都能瞬间定位到该抓哪里。

3. 像“跳舞教练”一样指挥动作(扩散策略)

找到了“穴位”之后,机器人该怎么动手打结呢?
它不需要重新学习复杂的物理公式,而是像一个**“跳舞教练”**。

  • 比喻:想象教练只给机器人看了几次人类打结的录像(人类示范)。机器人不是死记硬背每一个动作,而是学习一种“动作的韵律”。
  • 怎么做:它把找到的“穴位”坐标和机器人的手臂关节状态结合起来,输入到一个叫“扩散模型”的大脑里。这个大脑就像一个经验丰富的舞者,它能根据当前的姿势,预测出接下来一连串流畅的动作(比如:先勾住左提手,再勾住右提手,最后拉紧)。
  • 优势:因为它只关注那几个关键的“穴位”,而不是满屏幕的像素,所以它学得非常快,而且举一反三的能力极强。

为什么它这么厉害?(实验结果)

研究人员测试了各种情况:

  • 熟悉的袋子:机器人打结成功率很高。
  • 没见过的袋子:换了个品牌、大小不同的袋子,它依然能行。
  • 奇怪的变形:这是最难的。比如把提手扭成麻花状,或者把袋子压得扁扁的斜着放。以前的机器人(比如直接看 3D 点云的 DP3)在这种“超纲题”面前经常失败,因为它被复杂的形状搞晕了。但 DexKnot 因为只盯着“穴位”看,完全不受干扰,成功率依然很高。

总结

DexKnot 的核心智慧在于:“抓大放小”

它不试图去理解整个塑料袋那无穷无尽的变形细节(那是死胡同),而是学会了忽略那些无关紧要的噪音,只抓住几个最关键的“把手”。这就好比在混乱的舞池里,它不盯着每个人的舞步,只盯着领舞者的手势,从而能完美地配合演出。

这项技术不仅能让机器人学会打结,未来还可能应用到叠衣服、整理线缆等所有需要处理“软绵绵、爱变形”物体的任务中。