GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning

本文提出了 GarmentPile++ 系统,通过融合视觉语言推理、SAM2 分割辅助及双臂协作机制,实现了在真实杂乱场景中根据语言指令安全、精准地单次抓取单件衣物。

Mingleyang Li, Yuran Wang, Yue Chen, Tianxing Chen, Jiaqi Liang, Zishun Shen, Haoran Lu, Ruihai Wu, Hao Dong

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你刚洗完衣服,把一堆五颜六色的 T 恤、裤子和袜子像“俄罗斯方块”一样堆在了床上或篮子里。现在,你的机器人管家想帮你把衣服一件件拿出来,准备折叠或挂起来。

这听起来很简单,对吧?但在机器人眼里,这简直就是一场噩梦。因为衣服是软的、会变形,而且它们互相纠缠在一起,就像一团乱麻。如果机器人抓错了,可能一次抓起三件衣服,或者把衣服扯破了。

这篇论文介绍的 GarmentPile++,就是为了解决这个“从乱糟糟的衣堆里精准拿衣服”的难题而设计的超级机器人管家。我们可以把它的工作流程想象成三个聪明的步骤

第一步:谁先出来?(“挑衣服”)

就像你在乱糟糟的衣柜前思考:
“我想先拿那件红色的 T 恤,但它被压在下面了,还是先拿上面那件好拿的?”

  • 传统机器人:可能直接瞎抓,结果抓了一堆。
  • GarmentPile++ 的做法
    1. 眼睛(SAM2 分割模型):它先给这堆衣服拍个照,试图把每件衣服“画”个框出来。
    2. 大脑(VLM 大语言模型):如果衣服叠得太乱,框画得不准(比如把两件红衣服画成了一个框),机器人会主动动手!它会用机械手轻轻提起衣服抖一抖,再拍个视频,重新把衣服“画”清楚。这就像你发现看不清衣服时,会伸手去拨弄一下,让视线更清晰。
    3. 决策:然后,它听你的指令(比如“我要拿那件红帽子”),结合刚才画好的图,决定哪一件最适合现在拿出来。

第二步:抓哪里?(“找抓手”)

就像你拿湿漉漉的床单:
你不能随便抓一个角,否则床单会滑脱,或者把下面的衣服带起来。你需要找一个最稳、最不容易弄皱的地方。

  • GarmentPile++ 的做法
    它有一个**“手感专家”(Affordance 模型)。这个专家不看衣服长什么样,而是看衣服的物理结构**。
    • 它会计算:抓这里,衣服会不会滑落?抓那里,会不会把下面的裤子也带起来?
    • 它会在衣服上生成一张**“热力图”:红色代表“这里抓最稳”,蓝色代表“别抓这里”。它总是选那个最安全、最干净**的点下爪,确保一次只抓一件,而且不弄脏衣服。

第三步:需要帮手吗?(“单臂还是双臂”)

就像你搬一个大西瓜:
有时候,你一只手就能拎起一个小苹果;但如果你要搬一个大西瓜,或者衣服太长(比如一条长裙子),一只手肯定不行,容易掉。

  • GarmentPile++ 的做法
    1. 先试一把:主机械手先抓住刚才选好的点,把衣服提起来。
    2. 再次观察:衣服提起来后,机器人会立刻再看一眼。
      • 如果只提起来一件,且稳稳当当,那就直接拿走(单臂模式)。
      • 如果发现衣服太长,或者不小心把旁边的衣服也带起来了,它会立刻呼叫**“第二只手”**(双臂协作模式)。
    3. 完美配合:第二只手会迅速在衣服的另一端找个合适的点,两只手像抬轿子一样,把衣服稳稳地送到指定位置。

总结:为什么它这么厉害?

这就好比给机器人装上了**“三合一”超能力**:

  1. 会思考的脑子(大语言模型):能听懂人话,能判断局势,甚至知道什么时候该“动手拨弄”一下来改善视野。
  2. 敏锐的触觉直觉(视觉 affordance):不需要试错,一眼就能看出哪里抓最稳。
  3. 灵活的团队协作(双臂协作):遇到大麻烦不硬撑,懂得呼叫队友,确保任务完成。

最终效果
在实验室和真实世界的测试中,GarmentPile++ 就像一位经验丰富的老练保姆。面对乱成一团的衣服堆,它能一件件精准地拿出来,既不会抓错,也不会把衣服弄皱或带出其他杂物。这为未来机器人帮我们叠衣服、挂衣服、甚至穿衣服打下了坚实的基础。

简单来说,以前的机器人抓衣服像是在“盲猜”,而 GarmentPile++ 则是**“看清了再动手,抓稳了再走,搞不定就喊人”**,真正做到了聪明又可靠。