AdaClearGrasp: Learning Adaptive Clearing for Zero-Shot Robust Dexterous Grasping in Densely Cluttered Environments

本文提出了 AdaClearGrasp 框架,通过结合预训练视觉语言模型进行自适应清理决策与强化学习策略,实现了在密集杂乱环境中对多样化物体的零样本鲁棒灵巧抓取,并引入了首个分级复杂度仿真基准 Clutter-Bench 来验证其有效性。

Zixuan Chen, Wenquan Zhang, Jing Fang, Ruiming Zeng, Zhixuan Xu, Yiwen Hou, Xinke Wang, Jieqi Shi, Jing Huo, Yang Gao

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你走进一个堆满杂物的房间,想从一堆乱糟糟的碗碟、水果和玩具中间,把那个红色的杯子拿起来。

如果你直接伸手去抓,会发生什么?

  • 你的手可能会被旁边的橙子挡住(物理遮挡)。
  • 你可能看不清杯子到底在哪(视觉盲区)。
  • 或者你刚碰到杯子,旁边的苹果就滚走了,把杯子撞翻了(接触不稳定)。

传统的机器人就像是一个“死脑筋”的机械臂,它只会执行“抓取”这个指令。如果路不通,它就卡在那里,或者笨拙地把周围的东西全扫到地上(这可能会弄坏东西)。

这篇论文介绍了一个叫 AdaClearGrasp 的新系统,它就像给机器人装上了一个**“聪明的管家大脑”和一个“灵巧的机械手”**,让它能像人一样灵活地处理这种混乱局面。

1. 核心思想:先“理”后“抓”

这个系统的核心逻辑非常简单:“如果路不通,先清理;如果路通了,再抓取。”

它不再是一个只会死板的执行者,而是一个会做决定的决策者。它会先观察:“哎呀,这个杯子被橙子挡住了,直接抓不行。我得先把橙子推到一边。”

2. 三大法宝:如何做到这一点?

🧠 法宝一:拥有“常识”的超级大脑 (VLM)

系统里有一个基于**视觉 - 语言大模型(VLM)**的“大脑”。

  • 比喻:这就像你请了一位经验丰富的管家。你告诉它:“把那个红杯子拿给我。”
  • 作用:管家不仅看得到(通过摄像头),还能听懂人话。它会分析画面:“哦,红杯子被橙子挡住了。如果直接抓,手会碰到橙子。所以,我的计划是:先推走橙子,再拿杯子。”
  • 关键点:它不是盲目地乱推,而是会根据情况自适应地决定:是推?是拉?还是直接抓?如果推不动,它还会想别的办法(比如换个角度拉)。

🤖 法宝二:拥有“肌肉记忆”的灵巧手 (GeoGrasp)

一旦“管家”把路清理好了,系统会调用一个经过**强化学习(RL)**训练的“灵巧手”策略,叫 GeoGrasp

  • 比喻:这就像是一个盲打高手。它不需要知道那个物体叫“苹果”还是“梨”,也不需要知道它是什么颜色。它只关心几何形状距离
  • 作用:它通过计算手指和物体表面的距离,像有第六感一样,自动调整手指的角度去稳稳地抓住物体。
  • 厉害之处:因为它只学“形状”和“距离”,所以它在训练时只见过苹果、杯子和方块,但在现实中,它也能**零样本(Zero-Shot)**地抓住从未见过的乐高积木、梨或者球。就像你学会了怎么抓鸡蛋,自然也会抓西红柿,因为它们都是圆的。

🔁 法宝三:永不放弃的“闭环反馈” (Closed-loop)

这是系统最聪明的地方。

  • 比喻:就像你走路时,如果不小心被绊了一下,你会立刻调整姿势,而不是继续硬走直到摔倒。
  • 作用:系统在操作过程中会一直盯着看。如果“推橙子”失败了,或者手滑了,它会立刻告诉“管家”:“计划 A 失败了!”管家马上重新思考:“好吧,那我不推了,我试着把旁边的梨拿开。”
  • 结果:这种**“执行 - 检查 - 修正”**的循环,让机器人即使在非常混乱的环境里,也能通过多次尝试最终完成任务,而不是死机。

3. 他们怎么测试的?(Clutter-Bench)

为了证明这套系统真的有用,作者们建立了一个专门的测试场,叫 Clutter-Bench

  • 这就好比给机器人出了一套**“难度分级”的考试**。
  • Level 1:只有 2 个障碍物(简单)。
  • Level 2:有 4 个障碍物(中等)。
  • Level 3:有 6 个障碍物,堆得像山一样(地狱难度)。
  • 测试结果显示,在以前其他机器人完全失败(成功率 0%)的“地狱难度”下,AdaClearGrasp 依然能保持 76% 的成功率。

4. 现实世界的表现

最酷的是,这套系统不仅在电脑模拟里跑得好,直接搬到真实的机器人上(没有重新训练)也能工作。

  • 在真实的桌子上,面对真实的苹果、杯子和方块,它依然能成功地把东西拿起来。
  • 虽然真实世界比模拟世界更“调皮”(摩擦力不同、传感器有误差),但这个系统依然能搞定 70% 的任务。

总结

AdaClearGrasp 就像是给机器人装上了**“管家的大脑”(决定先清理还是直接抓)、“盲人的巧手”(不管什么形状都能抓)和“纠错的本能”**(失败了就换个方法)。

它解决了机器人面对杂乱环境时的最大痛点:不再盲目地乱抓,而是懂得“先理清楚,再动手”。这让机器人未来在整理房间、厨房帮厨或者仓库分拣等复杂场景中,变得真正实用和可靠。