GarmentPile++: Affordance-Driven Cluttered Garments Retrieval with Vision-Language Reasoning

Each language version is independently generated for its own context, not a direct translation.

想象一下，你刚洗完衣服，把一堆五颜六色的 T 恤、裤子和袜子像“俄罗斯方块”一样堆在了床上或篮子里。现在，你的机器人管家想帮你把衣服一件件拿出来，准备折叠或挂起来。

这听起来很简单，对吧？但在机器人眼里，这简直就是一场噩梦。因为衣服是软的、会变形，而且它们互相纠缠在一起，就像一团乱麻。如果机器人抓错了，可能一次抓起三件衣服，或者把衣服扯破了。

这篇论文介绍的 GarmentPile++，就是为了解决这个“从乱糟糟的衣堆里精准拿衣服”的难题而设计的超级机器人管家。我们可以把它的工作流程想象成三个聪明的步骤：

第一步：谁先出来？（“挑衣服”）

就像你在乱糟糟的衣柜前思考：
“我想先拿那件红色的 T 恤，但它被压在下面了，还是先拿上面那件好拿的？”

传统机器人：可能直接瞎抓，结果抓了一堆。
GarmentPile++ 的做法：
1. 眼睛（SAM2 分割模型）：它先给这堆衣服拍个照，试图把每件衣服“画”个框出来。
2. 大脑（VLM 大语言模型）：如果衣服叠得太乱，框画得不准（比如把两件红衣服画成了一个框），机器人会主动动手！它会用机械手轻轻提起衣服抖一抖，再拍个视频，重新把衣服“画”清楚。这就像你发现看不清衣服时，会伸手去拨弄一下，让视线更清晰。
3. 决策：然后，它听你的指令（比如“我要拿那件红帽子”），结合刚才画好的图，决定哪一件最适合现在拿出来。

第二步：抓哪里？（“找抓手”）

就像你拿湿漉漉的床单：
你不能随便抓一个角，否则床单会滑脱，或者把下面的衣服带起来。你需要找一个最稳、最不容易弄皱的地方。

GarmentPile++ 的做法：
它有一个**“手感专家”（Affordance 模型）。这个专家不看衣服长什么样，而是看衣服的物理结构**。
- 它会计算：抓这里，衣服会不会滑落？抓那里，会不会把下面的裤子也带起来？
- 它会在衣服上生成一张**“热力图”：红色代表“这里抓最稳”，蓝色代表“别抓这里”。它总是选那个最安全、最干净**的点下爪，确保一次只抓一件，而且不弄脏衣服。

第三步：需要帮手吗？（“单臂还是双臂”）

就像你搬一个大西瓜：
有时候，你一只手就能拎起一个小苹果；但如果你要搬一个大西瓜，或者衣服太长（比如一条长裙子），一只手肯定不行，容易掉。

GarmentPile++ 的做法：
1. 先试一把：主机械手先抓住刚才选好的点，把衣服提起来。
2. 再次观察：衣服提起来后，机器人会立刻再看一眼。
  - 如果只提起来一件，且稳稳当当，那就直接拿走（单臂模式）。
  - 如果发现衣服太长，或者不小心把旁边的衣服也带起来了，它会立刻呼叫**“第二只手”**（双臂协作模式）。
3. 完美配合：第二只手会迅速在衣服的另一端找个合适的点，两只手像抬轿子一样，把衣服稳稳地送到指定位置。

总结：为什么它这么厉害？

这就好比给机器人装上了**“三合一”超能力**：

会思考的脑子（大语言模型）：能听懂人话，能判断局势，甚至知道什么时候该“动手拨弄”一下来改善视野。
敏锐的触觉直觉（视觉 affordance）：不需要试错，一眼就能看出哪里抓最稳。
灵活的团队协作（双臂协作）：遇到大麻烦不硬撑，懂得呼叫队友，确保任务完成。

最终效果：
在实验室和真实世界的测试中，GarmentPile++ 就像一位经验丰富的老练保姆。面对乱成一团的衣服堆，它能一件件精准地拿出来，既不会抓错，也不会把衣服弄皱或带出其他杂物。这为未来机器人帮我们叠衣服、挂衣服、甚至穿衣服打下了坚实的基础。

简单来说，以前的机器人抓衣服像是在“盲猜”，而 GarmentPile++ 则是**“看清了再动手，抓稳了再走，搞不定就喊人”**，真正做到了聪明又可靠。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心挑战：
衣物操作（Garment Manipulation）是家庭服务机器人的关键能力，但由于衣物具有无限形变空间、复杂的运动学特性以及易缠绕性，其操作极具挑战性。

现有局限： 大多数现有研究假设初始状态仅包含单件衣物，而现实场景中衣物通常是**堆积（Piled）**且杂乱无章的。
具体痛点：
1. 检索困难： 在杂乱堆积中，难以从一堆衣物中精准分离并检索出单件目标衣物（现有方法常一次抓取多件）。
2. 缺乏语言引导： 现有方法（如 GarmentPile）主要依赖视觉 affordance（可操作点），缺乏与语言指令的深度融合，灵活性不足。
3. 单臂局限性： 仅靠单臂难以处理大型、长条形衣物或严重下垂的情况，导致鲁棒性差。
4. 分割误差： 在严重遮挡和颜色相似的情况下，传统的视觉分割模型（如 SAM）容易产生错误掩码，影响后续决策。

任务目标：
开发一个能够遵循语言指令，在杂乱堆积的衣物中安全、整洁地逐件检索衣物的系统，确保每次尝试仅检索一件衣物，为下游任务（如折叠、悬挂、穿衣）奠定基础。

2. 方法论 (Methodology)

GarmentPile++ 提出了一种融合**视觉 - 语言推理（VLM）与视觉可操作点感知（Visual Affordance）**的三阶段流水线。整体架构如图 1 和图 2 所示：

阶段一：检索什么？(Which to Retrieve) - 视觉分割与语言推理

初始分割： 利用 SAM2 (Segment Anything Model 2) 对 RGB-D 图像进行初始分割，生成衣物掩码。
掩码微调 (Mask Fine Tuning)：
- 问题： 针对严重遮挡或颜色相似导致的分割错误（如多件衣物被合并为一个掩码）。
- 方案： VLM 判断是否需要调整。若需要，机器人执行“捏 - 提 - 抖 - 放”动作并录制视频。利用 SAM2 的视频预测器（VideoPredictor）和点提示（Point-Prompt）进行跟踪和重新分割，生成更精准的掩码。
语言引导选择： 将分割后的掩码（带 ID 标记）和任务指令输入 Qwen2.5-VL-7B (VLM)。VLM 根据指令（如“检索所有衣物”或“检索红色上衣”）推理出最优的目标衣物 ID。

阶段二：在哪里检索？(Where to Retrieve) - 可操作点预测

检索可操作模型 (Retrieval Affordance Model)：
- 输入： 目标衣物的点云数据 + 目标掩码特征。
- 架构： 基于 PointNet++ 提取特征，结合 MLP 输出每个点的可操作分数（Affordance Map, $[0, 1]$ ）。
- 训练： 使用二元交叉熵损失（BCE），标签来源于单臂抓取成功的真实数据。
- 输出： 预测目标衣物上最适合单臂抓取的点（ $p_{retrieve}$ ），最大化抓取可行性并保证衣物安全（避免拉扯导致变形或污染）。

阶段三：如何检索？(How to Retrieve) - 双臂协作与状态判断

单臂抓取与状态监测： 主臂（Master Arm）在预测点抓取并提起衣物。
VLM 状态判断：
- 利用 VLM 观察提起后的场景，判断是否一次抓起了多件衣物（若抓取多件，则终止当前尝试，重新规划）。
- 判断是否需要双臂协作（例如衣物过长、过重或单臂导致严重下垂）。
双臂协作机制：
- 若需要协作，通过跟踪选择模块 (Tracking Selection)，在目标衣物的掩码上选择从属臂（Slave Arm）的抓取点（通常基于 Z 轴排序选择底部点）。
- 双臂协同将衣物水平移至目标位置。

3. 主要贡献 (Key Contributions)

首个面向杂乱堆积衣物的语言引导检索流水线： 提出 GarmentPile++，能够严格遵循语言指令，确保每次尝试仅检索一件衣物，解决了现有方法易抓取多件衣物的问题。
VLM 与视觉 Affordance 的无缝融合：
- 利用 VLM 的高层推理能力处理“检索哪一件”和“是否需要协作”的决策。
- 利用 Affordance 模型的泛化能力解决底层“在哪里抓取”的精确控制问题。
创新的掩码微调机制 (Mask Fine Tuning)： 针对杂乱场景下的分割难题，设计了基于物理交互（抖动）和 SAM2 视频跟踪的自适应微调流程，显著提升了分割精度。
鲁棒的双臂协作框架： 引入双臂协作机制，有效解决了大型/长条形衣物的检索难题，并增加了系统的容错率。
广泛的实验验证： 在仿真（DexGarmentLab）和真实世界（ARX x7s 机器人）环境中，针对“顺序检索”和“特定目标检索”两种任务进行了全面验证。

4. 实验结果 (Results)

仿真环境 (DexGarmentLab)

对比基线： ThinkGrasp, GarmentPile, Qwen (仅 VLM)。
指标： 平均成功率 (ASR) 和平均运动步数 (AMS)。
结果：
- GarmentPile++ 在所有场景（开边界/闭边界）和任务中均取得 SOTA (State-of-the-Art) 表现。
- ASR 提升： 在“顺序检索”任务中，开边界 ASR 达到 90.4%，闭边界达到 87.4%，显著优于基线（如 GarmentPile 的 81.9% 和 79.2%）。
- 效率： 虽然增加了双臂协作逻辑，但由于 Affordance 引导减少了无效抓取，整体运动步数（AMS）与基线相当或更优。
消融实验：
- 移除“掩码微调”导致 ASR 下降，且触发双臂协作的概率（PDR）增加（说明分割不准导致抓取困难）。
- 移除"Affordance"导致单臂抓取成功率大幅下降。
- 移除“双臂协作”在处理长衣物时失败率激增。

真实世界实验

设置： 使用 ARX x7s 机器人和 RealSense D405 相机。
结果：
- 在“顺序检索”任务中，开边界成功率 95%，闭边界 85%。
- 在“特定目标检索”任务中，成功率均达到 80%-90%。
- 证明了该方法在真实物理环境中的有效性和鲁棒性。

5. 意义与展望 (Significance)

实际应用价值： 填补了从“单件衣物操作”到“杂乱衣物堆检索”的空白，为家庭服务机器人执行洗衣、收纳等任务提供了可靠的前端处理能力。
技术范式创新： 展示了“大模型推理（VLM）+ 专用感知模型（Affordance）+ 物理交互微调”的混合架构在处理高维形变物体（Deformable Objects）时的巨大潜力。
局限性： 目前依赖视觉分割，在极低光照或图案极其复杂的衣物上可能因分割错误导致性能下降。

总结： GarmentPile++ 通过巧妙的多阶段设计，成功解决了杂乱衣物检索中的“选衣难、抓点难、协作难”三大问题，为家庭机器人实现全自动衣物处理迈出了关键一步。