UMI-Underwater: Learning Underwater Manipulation without Underwater Teleoperation

本文提出了 UMI-Underwater 系统,通过自监督水下数据采集流程结合基于深度的仿射表示,成功将从陆地人手演示中习得的抓取知识零样本迁移至水下环境,显著提升了水下机械臂在复杂光照和背景变化下的抓取性能与泛化能力。

Hao Li, Long Yin Chung, Jack Goler, Ryan Zhang, Xiaochi Xie, Huy Ha, Shuran Song, Mark Cutkosky

发布于 2026-03-31
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让水下机器人在没有人类远程遥控的情况下,也能学会“抓东西”的聪明方法。我们可以把它想象成教一个从未下过水的潜水员如何在水下工作。

通常,教机器人水下抓东西有两个大难题:

  1. 水下太黑太浑浊:摄像头拍出来的照片模糊不清,颜色也变了(比如红色的鱼看起来是黑的),机器人很容易“晕头转向”。
  2. 收集数据太贵太累:让人类在水下拿着遥控器教机器人抓东西,既危险又耗时,而且很难收集到足够多的“成功抓握”案例。

这篇论文提出的解决方案叫 UMI-Underwater,它用两个绝招解决了这些问题:

第一招:让机器人自己“试错”学习(自助式数据收集)

想象一下,如果你要教一个小孩怎么抓地上的玩具,你不会一直手把手教他,而是让他自己多试几次。

  • 传统做法:人类操作员在水面上通过缆绳,像玩遥控车一样,小心翼翼地控制机器人去抓东西。这很慢,而且操作员很累。
  • UMI 的做法:他们设计了一套自动程序。机器人自己下水,看到东西就试着去抓。
    • 如果抓到了,系统就记录:“好,这次成功了!”
    • 如果没抓到(比如滑掉了),机器人不会放弃,它会自动退后、换个角度、再试一次(就像你抓不住球时,会调整站位再抓一样)。
    • 系统会自动判断哪些是成功的,哪些是失败的,只把成功的“抓握瞬间”存下来。

比喻:这就像机器人自己在游泳池里玩“抓娃娃机”,它自己不断尝试,只有抓到了才把视频存进“记忆库”,完全不需要人类在水下盯着它操作。

第二招:用“陆地经验”教“水下技能”(零样本迁移)

这是最精彩的部分。既然水下很难教,那我们就在陆地上教,然后直接用到水下。

  • 问题:在陆地上抓东西和在水下抓东西,看起来完全不一样(光线、颜色、水的阻力都不同)。直接套用陆地经验通常会失败。
  • UMI 的妙招:他们发明了一个手持式抓握器(叫 UMI-Aquatic),就像给机器人装了一个“人形手柄”。人类拿着这个手柄在陆地上抓各种东西(比如抓杯子、抓玩具)。
  • 核心魔法——“深度地图”与“ affordance(功能提示)”
    • 普通的机器人看的是RGB 照片(彩色的),但在水下,照片里的颜色会乱套(比如红变黑)。
    • UMI 让机器人不看颜色,而是看深度图(就像给物体画了个 3D 轮廓,不管它是红是蓝,只看它凸出来多少)。
    • 他们在陆地上收集了大量人类抓握的数据,训练出一个**“抓握热力图”模型**。这个模型不关心物体是红色的还是蓝色的,它只关心:“哪里是凸起的?哪里适合下嘴?”
    • 因为“凸起的形状”在水下和陆地上是一样的(几何结构没变),所以这个在陆地上学会的“抓握直觉”,可以直接零成本地用到水下,不需要重新训练。

比喻
想象你要教一个盲人(水下机器人)抓苹果。

  • 传统方法:你给他看苹果的照片,但他在水下看不清颜色,所以学不会。
  • UMI 方法:你让他在陆地上摸苹果,告诉他:“摸到这种圆圆的、凸出来的地方,就是抓握点。”
  • 当他到了水下,虽然苹果看起来黑乎乎的,但他依然能感觉到“哦,这里有个圆圆的凸起”,于是就能成功抓住。这就是**“不看颜色看形状”**的智慧。

实验结果:它有多厉害?

研究人员在游泳池里做了测试,结果非常惊人:

  1. 抗干扰能力强:如果游泳池背景换了(比如贴了木纹壁纸),普通的机器人(只看彩色照片)直接0% 成功率,因为它被背景颜色搞晕了。而 UMI 机器人依然能80% 成功率抓住目标,因为它只看物体的形状和位置。
  2. 举一反三:如果给机器人抓它从未见过的物体(比如只在陆地上见过的手电筒,水里没见过),UMI 机器人依然能75% 成功率抓住,而普通机器人只有 50%。这说明它真的学会了“抓握”的通用逻辑,而不是死记硬背。

总结

这篇论文就像给水下机器人装上了**“自动驾驶”“跨物种直觉”**:

  1. 自动驾驶:让它自己下水练习,自动筛选成功数据,省去了昂贵的人力遥控。
  2. 跨物种直觉:利用在陆地上收集的人类抓握数据,通过“深度形状”这一通用语言,让机器人直接学会水下抓东西,不管水多浑、背景多花哨。

这就好比一个在陆地练过武术的功夫大师,跳进海里后,虽然水阻力大、看不清脸,但他依然能凭肌肉记忆和身体感知,精准地抓住目标。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →